如果我们把人类生物学的复杂性比作一部动画电影,那么在一百年前,我们对这种复杂性的了解大约相当于电影画面的一个像素。随着我们看到的像素越来越多,我们就会逐渐看出其中的模式和主题,这是了解整个故事的开端。
几年前,埃里克·夏特(Eric Schadt)认识了一位患上癌症的女士。
那是一种具有侵袭性的结肠癌,发病很快,并且转移到了肝脏。
这位女士来自密西西比州,是一位军人遗孀,年纪轻轻的她要独自抚养两个女儿。丈夫的抚恤金只够她享受最基本的医疗保障——到军方医院就医,那里的肿瘤科医生早就不堪重负,医疗条件也只能用简陋来形容。身患四期癌症走进这样的医院,那就像回退到世界尚未绘制出人类基因组图谱的时代:
在那个时代,人们仍然以为“结肠癌”只有单一的病因,而不知道会有无数种病因,造成各种独特的变异;在那个时代,治疗这种癌症使用的是同一种药,不管你是来自何处。
那是一个没有大数据和机器学习,也没有希望的时代。
当时,夏特刚刚在西奈山医院(Mount Sinai Hospital)组建了伊坎基因组学和多尺度生物学研究所(Icahn Institute for Genomics and Multiscale Biology)。
在听说了密西西比州那位女士的情况之后,他只是简单地说:“那正是我们要接收的患者类型。”
他这么说的意思是,对于这样的患者,当前的医疗手段将无法起到作用,而未来的医学——即使用超级计算机筛查海量基因数据,寻找有可能启发新治疗手段和方法的模式——则无法及时到来。
埃里克·夏特(Eric Schadt)
夏特不是癌症专家,他甚至不是医生。
他是一位数学家,精通分子生物学和计算生物学,有生以来还没有治疗过什么病患。
通过自己在西奈山医院开设的新实验室,夏特可以围绕这位女士的癌症采集1TB相关数据,是在传统环境中的数千倍,目标是找到对抗癌症的新方法。然而那位女士到最后还是离开了人世,给这位从未给人治过病的科学家留下了难以言喻的苦涩。
坐在西奈山医院的办公桌旁接受采访时,夏特显得率直和不设防。今年51岁的他不管到哪儿都喜欢穿短袖POLO衫和短裤。对任何医学研究人员来说,在发表论文或研发药物时,在远离人为影响的情况下,保持乐观是相对容易的。然而,亲身体会自己工作所产生的影响,并且亲眼目睹某个人在自己面前慢慢死去。“那是我以前从未经历过的更深层次的心灵震撼,”夏特说道。
“我们正处在一种越来越快的增长曲线之上,你会自然而然地展望未来,你会想:我们会把这个问题搞清楚的,”他说,“最终,我们将会知道所有的细胞都在做什么,所有的乱子都是怎么回事。这当中让人深觉无力的部分是,随着我们不断长进,我们也会不断遭到打击,那就是在这个过程中显现的日益加剧的复杂性。”
十多年来,我们一直在谈论基因测序和个性化医疗的潜力,谈论计算机处理能力的进步加上对个体基因组更进一步的了解如何能够让我们迈入奇迹时代的门槛。这种理论认为,有了足够多的数据之后,没有什么疾病是无法治疗的。但正如夏特了解到的,数据下沉到个体DNA的层面仍然不够。要在人群中检测出疾病的模式,应用机器学习技术,找出导致疾病的各种基因突变,以及采取相应对策,那将需要海量的数据,达到艾字节(EB,即百亿亿字节)的级别。这些数据集的规模越大,科学家的模型和预测就会变得越精确和越强大。
我们必须说服那些收集个人数据的医疗中心和基因技术公司,让他们不要为了自己谋利把数据囤积起来。
问题就在于,我们如何才能获得这些艾字节级别的基因数据。
事实证明,你不可能直接向成百万上千万的人索要他们的健康数据。
你必须首先说服他们相信,你只会利用这些数据做好事,而且不会让它落入坏人之手。
然后,你必须说服那些收集个人数据的医疗中心和基因技术公司,让他们不要为了自己谋利把数据囤积起来,而是应该进行共享,从而让整个科研社区能够实现规模效应——即可用的数据突破了临界量,个体数据集终于达到数百万的量级。
夏特跟很多其他人认为,要理解疾病的成因,并设计出新的治疗手段和方法,那是必不可少的。目前,那种体量的数据仍然是不可得的。眼下还没有人能建立起那种体量的数据集。
不过,从科技巨头到生物医药初创公司,形形色色的公司都在竞先解决数据规模问题。夏特希望参与其中。
如果我们把人类生物学的复杂性比作一部动画电影,那么在一百年前,我们对这种复杂性的了解大约相当于电影画面的一个像素。如果只有单个像素,你是无法知道电影讲了什么故事的。但随着我们看到的像素越来越多——成百上千个,或者说是电影像素总量的1%——我们就会逐渐看出其中的模式和主题,这是了解整个故事的开端。
正是这种想法促使夏特在2011年组建了伊坎研究所。
在那之前,他曾在默克公司(Merck)做过十年的药物研发工作。(曾经有一段时间,默克公司用于治疗心脏病、糖尿病和肥胖等疾病的代谢性疾病药物有一半源自于夏特的研究成果。)
面对着基于疾病和药物研发单基因模型做出的、被人们广泛接受的假设,夏特开始相信,基因突变不是独自发挥作用的,而是形成一个庞大的网络,让疾病能够突破我们的自然防御能力。
只有通过深入的生物信息学探究,我们才有可能理解这些网络的作用机制。
为了探索自己的复杂性模型,夏特带着金融家兼慈善家卡尔·伊坎(Carl Icahn)提供的1.5亿美元来到西奈山医院,在那里的地下室里建造了一台名为“密涅瓦”(Minerva)的超级计算机,对医院每年收集的数千份基因组数据进行分析。
超级计算机“密涅瓦”
他聘请了其他金融工程师,其中包括为Facebook组建首支数据团队的杰弗里·哈梅巴赫(Jeffrey Hammerbacher)。按照西奈山伊坎医学院一位知名肿瘤学家的话说:“突然之间,周围都是这些数学极客跑来跑去,他们看起来像是那种开发电子游戏的程序员。”
“我们需要100家西奈山医院来达到所需的规模,那样才能在患者数据中识别出能够指导我们进行诊断和治疗的模式。”
没过多久,夏特就意识到,他将需要“一艘更大的船”。
2014年,伊坎研究所跟非营利性生物医学研究机构Sage Bionetworks联合启动了一个项目,试图治愈罕见儿童疾病,比如囊性纤维化、镰状细胞贫血症以及泰-歇克斯症,总计有170种。
他们将这个项目命名为“韧性项目”(Resilience Project),研究人员致力于寻找人群中携带了致病基因但不知何故没有发病的个体。
在寻找这些“韧性个体”的过程中,夏特及其团队积累了60万人的基因数据池。
在当时,这是规模最大的基因研究,其收集的数据拥有十多个来源,其中最重要的包括23andMe、北京基因组研究所,以及麻省理工与哈佛大学联合创办的博德研究所(Broad Institute)。
但是,在搜索60万份基因组数据时,研究人员发现,在自己着手解决的170种疾病中,只有8种有潜在的韧性个体。
事实证明,这项研究的规模还是太小了。
通过计算致病突变在人群中发生的频率,夏特及其团队开始相信,他们需要的有用被试者数量不是60万,而是要达到千万级别。
尽管“韧性项目”背后拥有强大的计算能力支持,而且看似收集到了规模庞大的数据,但要破解“韧性”背后的基因密码,夏特手中掌握的数据在数量和质量上仍然达不到需求。
“我们需要100家西奈山医院来达到所需的规模,那样才能在患者数据中识别出能够指导我们进行诊断和治疗的模式,”夏特说,“在我任职的五年中,我意识到,这种事情不可能在医疗中心的圈子内部变成现实。它们彼此之间有太多隔阂,相互竞争,没有像其他几乎所有行业那样形成一种能够推动医疗行业进步的连贯框架。”由于大型医疗中心基本上垄断了自家患者的数据,而且没什么经济诱因促使它们在关键研究领域展开相互合作,夏特表示,“颠覆创新将出现于现有医疗机构之外。”
出于这个原因,夏特创立了自己的基因数据公司Sema4。
这家公司将专注于收购和扩展那些专门从事基因检测(比如致癌基因携带者筛查和无创性产前检测)的公司,以此来收集和共享数以百万计的个体数据集。
在Sema4的可搜索平台上,医生将能即时访问海量的基因组数据以帮助诊断自己的患者。
制药公司可以付费使用这套系统,来寻找临床试验所需的患者人群。
至于科学家——他们目前掌握的分析工具因为更加强大的计算能力和机器学习算法而得以增强——他们将终于能够获得足够多的基因数据来推动自己雄心勃勃的研究。
尽管一些科技巨头正在进军生命科学领域,美国国立卫生研究院(NIH)也在征求100万志愿者来创建自己的大型生物数据库,但夏特认为,最用心于实现基因数据理想规模的是Sema4及其同类初创公司——主要代表包括克雷格·文特尔(Craig Venter)的Human Longevity以及黄馨祥(Patrick Soon-Shiong)的Nant-Health。
虽然这些公司会在收集大量高质量生物数据方面展开竞争,但Sema4将脱颖而出,该公司的办法是向世界各地的学术性医疗中心和非营利机构研究人员免费开放自己的基因数据库。
夏特表示,如果竞争对手需要获得Sema4数据库中一个子集的信息,那么他们将可以付费访问Sema4的搜索平台。或者,Sema4和其他公司可以联手为“韧性项目”这样雄心勃勃的努力(只不过规模更大)创建大型的数据集。
通过收购和扩展全美各地现有的基因检测公司——它们目前各自为政,但在Sema4的旗帜下将组合创建出一个巨大的基因数据网络,并实现统一的安全和许可标准——Sema4将能实现上述增长。
夏特承认,要求一个人把自己的生物数据交给一家匿名公司,那不是什么简单的事情。尽管公共部门和私人部门已经投入数十亿美元的资金用于对现有数据网络进行现代化改造和提供安全保障,但数据泄露事件仍然时有发生。
在Sema4,患者将被详尽地告知,他们的数据将如何被加密、接受匿名处理、擦除身份识别信息(除了加密密钥以外)。即使发生了数据泄露事件,某个人身份被识别并暴露的机率也是极低的。
在建立了这样的数字基础设施之后,夏特设想了这样一种未来:
越来越多的患者不仅愿意分享自己的基因数据,还将分享通过血糖仪、血压计和吸入器等追踪设备收集的医疗和生活方式信息。最终的希望是,这些日益复杂但对患者越来越友好的测试将变得非常普及,以至于他们身体的微生物群会定期得到检测、他们的RNA会经常接受测序,他们的血液细胞会持续得到监控以发现病变迹象。
像西奈山医院这样的医疗中心,它们目前对患者数据事实上的垄断将被打破。研究人员将最终能够访问海量的基因数据,它们正是未来医疗技术突破所必需的。
“如果数据变得更广泛可得,并且可以利用整个世界的智力来完善疾病模型,那我们是否可以更好地造福人类呢?”夏特自问道,“绝对可以。”这是如数学一般精准的医学,不是臆测。有朝一日,每一种疾病——甚至是四期癌症——都可能被治愈。
大举押注生物数据的四家科技巨头:
Alphabet
Alphabet的Verily Life Sciences团队在自己的Baseline研究项目中使用了机器学习技术,他们会把来自成千上万健康志愿者的基因、临床和医学成像数据馈入机器,以期更好地理解是什么让这些志愿者保持健康——这样的知识有可能帮助人们从一开始就远离疾病。
IBM
在上世纪70年代,世界卫生组织(WHO)曾使用IBM制造的硬件来追捕天花病毒“余孽”。现在,IBM正在跟医院合作,为曾在《Jeopardy!》智力竞赛节目中赢得大奖的人工智能系统“沃森”提供健康数据。他们的目标是预测疾病、实现个性化医疗,甚至驱动虚拟医疗助理筛查医疗记录和研究成果。
苹果
利用苹果的ResearchKit,科学家可以大规模招募临床研究被试者,并通过他们的iPhone收集实时健康数据。去年春天,该公司新增了CareKit,它让苹果用户可以跟自己的医生直接分享健康数据。
微软
微软正在开发可以贴在皮肤上的微型传感器,它们可以把生物特征数据传输到远程健康监控器(以及潜在的大规模数据聚合器)之上。此外,微软最近还宣布了利用机器学习和生物数据“解决”癌症的计划。