近日,李彦宏宣布个人捐款3000元万,支持中国的癌症事业,而在今年乌镇互联网大会上李彦宏也提及了大数据医疗。马不停蹄,12月22日百度方面也正式宣布与协和医院一起发布了“百度与协和医学院合作开展癌症研究”协议,将百度的人工智能技术与协和医院的食癌数据进行对接,共同推进食癌项目,这也是继百度与中国交通部、中国疾病预防控制中心合作后的第三次参与到民生工程的建设中。
一,为何癌症大数据处于“沉睡”状态?
《中国科学报》曾经做过一个采访,专家们对癌症大数据总结下来属于这么一个情况,中国拥有13亿的人口,其产生的海量数据有着极大的研发价值,但是困境有以下几点。
由于数据的过于庞大,首先面临的是数据的存储与计算问题。一个标准的病理图则接近5GB,仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多,加之每天患者数目的增加,医疗大数据也有着增长过快的特点。这就导致了有些普通医院甚至连存储这些海量数据的能力都没有。而与此同时,庞大的数据也导致需要极为强大的计算能力,要在短时间内处理上TB的数据,只有是大型IT科技公司或者是国家级计算机科研机构才能做到,医院方面也只能望洋兴叹。
其次,医疗大数据的结构缺乏标准化,每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛。
以上,中国的癌症大数据处于蜂窝煤的状态,数据虽大,但是乱,质量差,缺乏对数据利用的能力。医院的尴尬在于,有着海量的重要病患的大数据资源,但是却没有对应处理的工具,处于巧妇难为无米之炊的状态。
二,百度将如何激活“医疗大数据”?
先从存储空间与运算能力来说,先说存储空间,虽然百度从未公布过自己的存储能力,但是从另一个侧面,2013年开启的百度云盘免费2T容量,而当时中国的网民有6亿,假如保守估计有1亿用户使用百度的产品,那百度所需要存储的数据也是一个天文数字。其次是高运算能力,这点百度也是百度强项,根据2014年的数据,百度一天可以扫描高达10PB的数据,而百度也在准备推出Minawa超级计算机,能够进行每秒7千万亿次的计算,将进入全球前十的超级计算机。
百度做搜索起家,其大规模分布式内存存储以及分布式集群计算的能力早已成熟,因此帮助协和医院进行数据的存储与处理也自然不成问题。
其次是要解决数据的标准化问题,大数据医疗最痛苦的事情不在于数据的统计相关性对比,最为痛苦的事情在于数据的无法标准化。以谷歌1.3亿美金投资的Flatiron Health公司为例,该公司在做的主要任务不是大数据的挖掘,而是大数据格式的统一化,该公司通过还完善“NLP自然语言处理”的技术,让计算机“阅读”文件,并且从中提取数据,并再聘请50人护士团队手动录入数据,这在国内也同样是无法绕过的事情。
幸运的“NLP”技术是百度建立公司的技术基石,搜索引擎理解用户的请求、理解文本内容、理解内容的价值高低,等等所有环节都需要用到NLP技术。百度的“NLP”技术,百度在“NLP”将会是将医疗大数据进行标准化的最大福音。
综上,百度通过自身优势与医院的癌症大数据结合,将会一点点唤醒原本沉睡的数据,发现地下的金矿。
三,人工智能与生命科学还能碰撞出什么?
在12月22日下午召开的北京协和医学院与百度合作开展癌症研究发布会上,李彦宏这表示,早在20年前,就对生命科学很感兴趣,并差点投身于生命科学领域。而当下的大数据+人工智能+生命科学正在爆发着前所未有的潜力,正在曲线实现李彦宏当初的愿望。
人工智能与生命科学还能碰撞出什么?我们探讨一下可能性。
1)基因测序:整个生命科学的第一步也是最大的困难之处就是在于基因测序,虽然说“人类基因组计划”已于2011年宣告结束,但是依然还有1%的基因无法被检测出结果,需要更为先进的技术作为支撑才能检测出来。
而这里所在等待的先进技术,其实就是人工智能。以癌症基因检测项目为例,其所做的就是要在大量的基因突变中,找到与某个具体癌密切相关的突变的位置,这其实和百度的搜索技术其实一致,百度能够通过百亿的用户关键词搜索的点击中找到用户最想要的高相关的一系列网页,将其进行先后排序,而从海量用户的海量突变基因中找到与食管癌的最大相关的基因,就能最大几率的找到食管癌发病是哪些关键基因导致。
并且百度寻找的不是单向相关性而是多项的,其要找到哪些基因突变叠加在一起就会增加患食管癌的概率,也就是要在无数的基因中突变中寻找组合的相关性,这对计算的要求其实是指数级的。
但这却正是人工智能的强项所在。
2)基因药物研发:目前学界有一个共识,当前的药物都是属于化合药物,但是在不久的将来,药物将不仅仅只是化合物,药物也可以是人工合成的蛋白质,合成的细胞,甚至某些组织和器官等等。但与此同时也伴随着更大的风险,因而人们在未来使用这些药物时需要更为格外的小心谨慎。
人工智能则可以利用大数据医疗帮助医生研发,将各个患者的用药情况统统联网,建立统一的药物治疗大数据网,通过使用到反馈的信息收集,让基因药物研发配比更为可靠,进而加速整个基因药物研发进程。
3)量化自我:凯文?凯利在预测未来20年科技的发展趋势时,第一个提到的就是“量化的自我”。所谓“量化自我”就是通过利用各种可穿戴设备,诸如智能手环、智能血压仪、智能体脂秤等等设备,将自己一切身体数据诸如心跳记录、血压记录、体重记录、BMI记录、等等都记录在案。
人工智能通过对这些大数据进行监控,并再辅以病人病历数据监控,可以为生命科学提供有利的学术研究支持,可以极为有效的加大对癌症基因判断的准确性。
结语:对于医院来说病患的数据具有极大的科研意义,但是由于自身技术水平有限,也导致了巧妇难为无米之炊,而百度的人工智能技术支持正是雪中送炭,并且百度的大数据技术将在未来给大数据医疗带来更大的价值,这体现了科技公司高度的社会责任。
我们看到BAT正在全面进入经济、娱乐、民生等多项领域,进入方式各有不同,但是在医疗领域,技术一定是关键,百度的想象力很大。