去年,谷歌宣布从Mobile First(移动先行)转向AI First(人工智能先行)。在过去的几年内,其不仅收购了多家AI公司(包括主攻语义理解、语义网络的Metaweb;深度学习公司DNNresearch;专注于机器学习跟神经网络研究的DeepMind;聊天机器人API.AI等),由谷歌旗下DeepMind公司团队开发的阿尔法狗(AlphaGo)也在近期成为了“网红”,其在去年与围棋世界冠军、职业九段选手李世石进行了扣人心弦的人机大战,并且以4:1的总比分获胜。谷歌推出的Tensor Flow深度学习框架也得到了广泛的好评。
当然,谷歌还得继续在人工智能领域“搞事情”。
制定目标 超越GATK
GATK(The Genome Analysis Toolkit)是目前使用最广泛的二代测序数据分析软件,主要注重于变异的查找、基因分析且高度重视数据质量。GATK使用了一种人工编码算法,可以将统计数据应用到测序机器最常出错的地方。
2015年6月份,Google Genomics(谷歌基因组)宣布与博德研究所(Broad Institute)进行合作,两者联手推出基因组分析软件GATK(The Genome Analysis Toolkit)的云端版。谷歌基因组是谷歌公司为帮助科学界存储、处理和管理海量基因组数据而搭建的云端平台,于2013年3月份推出。科学家可利用谷歌云端提供的API接口,储存、处理、分析以及分享DNA序列。
不过,谷歌并不满足于此,想自己开发一套能超越GATK的基于人工智能的工具。此前,谷歌的人工智能对遗传学一无所知。事实上,这些人工智能工具只用来识别图像,正如识别上传到谷歌猫狗照片的神经网络一样,要学习的地方还有很多。
Mark DePristo和Ryan Poplin接手了这项工作,他们也曾是GATK创建小组的成员。
DePristo表示:“(GATK)不可能再有进展了,我们建立了许多不同的模型,但毫无成效。”然后,人工智能技术出现了。
仅仅过去了八个月,(Mark DePristo和Ryan Poplin牵头开发的)这个神经网络准确判断了DNA序列中的突变点,赢得了“FDA”(美国食品药品管理局Food and Drug Admistraton)挑战赛的最高分。短短一年,该人工智能已超越了标准的人工编码算法GATK,它就是谷歌DeepVariant。
DeepVariant强在哪里?
DeepVariant可实现将高通量测序所测区的数据,转换成完整的基因组图像。其可以自动识别测序数据中的插入基因、缺失突变以及单碱基对变异。
和GATK一样,DeepVariant解决了“变异检测”(variant calling)这个重要的技术性问题。分析DNA时,现代测序仪不会返回一条长链,而是可能返回长达100个碱基且相互重叠的短DNA片段。这些片段排列成一条直线,与已知序列的参考基因组进行对比。真正的突变可能出现在不同于参考基因组的片段上,当现在片段与参考基因组和其余片段有差异时,问题就出现了。
GATK试图通过大量数据解决这一问题。DNA测序器运行时偶尔会出错,GATK团队着重研究其易出错的地方(比如碱基GTG)。他们长期思索着像“隐马尔可夫模型的统计模型”这样的事情,然后试图预测DNA某一具体位置的实际碱基。
与GATK不同,DeepVariant虽然对DNA测序器一无所知,但已经吸收了大量数据。神经网络通常被类比为处理逐渐复杂化概念的“神经元”层——第一层感应光,第二层感应形状,第三层则感应实际物体。通过数据训练,DeepVariant可以判断哪些“神经元”更重要,哪些可以忽略。最后,从误判中分辨出实际的突变点。
为了使用图像识别AI处理DNA测序数据,谷歌决定将数据转化为图像。科学家在识别变异点时,经常将排列整齐的基因片段提取出来进行研究。
对此,Poplin表示,“如果将DNA识别当作一个视觉任务,为什么不直接以视觉形式呈现呢?”秉持这种观念,谷歌将图像概念嵌入到识别任务中。将数据转化为RGB(红、绿、蓝)图像,其中红色标记ATCG四种碱基,绿色标记序列质量,蓝色用来表示DNA的正反向链。
之后只需要输入神经网络数据。根据Depristo的说法,“很大程度上改变了我们处理问题的角度,从开始努力研究现有数据到现在致力于寻找更多数据。”
DeepVariant将人工智能引入了未来基因研究领域
去年十二月,团队发表了关于DeepVariant的预印本(Preprint)。上周,谷歌正式发布该工具。这期间,团队不断改进修正DeepVariant。
在之前采用红黄蓝三色的基础上,团队正考虑为其新增两个数据层。在人们眼中这些数据是无法构成图像的,增加几层数字对于机器来说并不意味着什么。
DeepVariant自身无法改变现有遗传学研究。与GATK相比,该工具只显示出了微弱优势。一定条件下,速度只能达到GATK的一半。然而,DeepVariant逐渐将AI技术引入了未来基因研究领域。
目前,Oxford Nanopore等新型测序技术愈发流行,在这些技术的帮助下,如果DeepVariant能够赶超GATK(GATK花费了五年时间最终成型),更快地学会识别变异点,可以加速测序技术的投入使用。
Depristo表示,将数据层放置于基因组中能够解决比预测变异更加重要的问题。比如用数据层表示基因是否具备活性。DeepVariant以三个数据层为出发点,现在已经发展为七个,最终可能会达到几十个。毫无疑问,人工智能可以让在人脑中毫无意义的数据变得更有价值。