在北京301医院计算机应用与管理科副主任赵京利的办公桌上,放着一摞“数据查询统计申请表”,有要查询“环境因素对呼吸疾病影响”的相关病历的,也有要调取异体器官移植的过往案例的,各种查询需求五花八门。
“这样的申请越来越多,每个要求都不一样。要在我们的数据库里调取相关数据,我必须给每个申请单独编写检索程序。”赵京利告诉网易科技,“感觉靠手工处理越来越应对不过来了。半年前可以两三天返回结果,现在申请量猛增,我又是兼职的,工作太忙的时候,那些条件复杂的要等一个月才能拿到结果。”
北京301医院面临的问题,是中国的医疗大数据利用当中面临的普遍问题的一个缩影:一方面,上世纪90年代以来的医疗信息化进程,使得越来越多的医疗数据在信息系统中积累起来;另一方面,对于如何挖掘和利用这些数据,却还没有成熟的工具和方法。用好医生集团董事长高瞻的话来概括,就是:“大数据产业是活的,而且火得不得了。但是,大数据产业生产出来的大数据却是死的。”
目前,医疗大数据向人类展示了非常广阔的应用前景。传统医学是小数据的判断和决策,正确率很难保证,完全依靠医生的经验和能力。以前基于统计学意义的诊断,今后将被基于个性化的大数据的诊断所代替。
但是在过去一年中,高瞻发现,50%—60%的英文资料已经在探讨“如何”让大数据产生价值,而且得到了很多有用的结论,比如“剖腹产的最佳时间是在预产期的前后两天”,然而中文资料还停留在宣讲大数据“可以”产生价值这个层面。
未来的市场无疑是巨大的,上海金仕达卫宁软件(300253,股吧)股份有限公司副总经理徐春华估计,未来医疗健康数据分析服务市场将达千亿级。
但问题是,如何开启这个市场?
现状:资本正在布局
未来资本对大数据的争夺战已经开始。据媒体报道,2013年至2014年以来, 大数据是互联网医疗健康主要并购投资领域之一。
前身为中国首家专业从事医院信息系统软件开发与应用工程企业的北大医疗信息技术有限公司(下称“北大医信”)已经瞄准了医疗大数据的战略方向。
今年3月,北大基金会向北大医信投资3000万,这是北大史上投资最大的“真金白银”。在3月14日的北大医信成立大会上,方正集团高级副总裁、方正信产集团CEO方中华直接给其赋予了重任:“北大和方正集团的大力支持、大数据时代带来的无限机遇,都应该让我们感到,我们的事业之无上光荣;光荣的背后是任重道远,必须要共同努力将北大、方正赋予北大医信的使命完成好、做好大数据事业,不仅要做北大大数据中心,未来还要做国家级、世界级的大数据中心。”
12月11日,弘毅投资、高盛、东软控股及协同创新等投资者共同对东软熙康进行1.7亿美元的增资。东软熙康是东软集团(600718,股吧)旗下专门从事互联网医疗和健康管理的公司,致力于通过大数据,云计算、物联网、移动互联网提供基于O2O模式的健康管理与医疗服务平台,这笔投资刷新了国内互联网医疗与健康管理领域最大单笔融资的纪录,也是全球互联网医疗与健康管理领域最大单笔融资之一。
上海医联工程已经建立了国内目前医疗机构联网范围最大的临床信息共享系统。该工程的承建商万达信息(300168,股吧)股份有限公司(下称“万达信息”),2014年7月收购上海复高计算机科技有限公司,8月收购宁波金唐软件股份有限公司。这两个公司都是在医疗信息化领域做了十多年的企业。
万达信息股份有限公司总裁助理冯东雷告诉网易科技,万达信息加上新收购的两个子公司,现在一共有员工3500人左右,其中从事与医疗健康相关的有事业部和子公司,员工共有1500人左右,是万达信息业务中最大的一块。
上海金仕达卫宁软件股份有限公司是一家专业从事医疗卫生领域信息化、数字化、软件研究与开发的高科技企业。徐春华告诉网易科技,金仕达卫宁做数据处理是原有业务的一种延伸,但是在过去一年当中,他发现,涉足医疗大数据领域的不光传统的做医疗IT软硬件服务的企业,甚至还有许多跨界的、之前和医疗没关系的上市公司,例如以地产起家的运盛实业(600767,股吧)、浓缩果汁生产企业国投中鲁(600962,股吧)等。
而在日前的“2014年中国移动医疗产业年会”上,中国移动、中国电信、中国联通(600050,股吧)、IBM、保险公司招商信诺等,还有各种健康管理公司都参与了主题为“健康大数据 全民大健康”的论坛。
企业之外,医院和各路研究机构也在尝试开展医疗大数据的研究。11月29日,中国科学院深圳先进技术研究院健康大数据研究中心成立。北京大学正在筹备成立北大医疗健康大数据中心。最近两个月,冯东雷拜访了北京大学、浙江大学、中山大学、中南大学等几所高校,“这些高校都希望在大数据方面和我们进行合作。”他透露。
2014年10月18日,首都医科大学附属北京安贞医院和辉瑞投资有限公司合作的国内首个心血管医疗大数据中心项目启动。
临床应用:还不成熟
目前对医疗大数据的需求集中在在三个层面:运营管理、辅助治疗和辅助科研。在业界看来,目前在中国,医疗大数据已经取得良好效果的是行政管理。
北京市公共卫生信息中心统计室主任郭默宁告诉网易科技,目前在数据的挖掘和利用方面,北京市公共卫生信息中心做的比较有成效的是对医疗机构进行绩效分析。
以前,对医疗机构进行绩效评价并不容易,因为每个病人病情各异,医疗机构的工作难度和工作效果很难衡量,医疗机构之间进行对比也非常困难。郭默宁告诉网易科技,以往对医疗机构进行绩效评估的通常模式是找专家给医院评分,依据经验和主观判断比较多。
2008年开始,北京市公共卫生信息中心尝试根据通过数据挖掘得来的指标对辖区内医疗机构进行绩效评价。她告诉网易科技:“利用统计学方法,可以把医疗机构收治的病症相似的病人进行分组,这样在同组病人当中,就可以比较各个机构的服务优劣了。这样可以促进医疗机构精细化管理,提高医疗服务的质量。”
郭默宁告诉网易科技,未来在公共卫生领域,医疗数据的挖掘和利用的前景是非常广阔的。比如,在医疗卫生资源规划、配置,疾病预警等方面都会得到充分的应用。
在临床辅助治疗和辅助科研方面,已经有机构在进行探索和尝试,但是目前尚不成熟。
万达信息之前研发的“临床辅助决策系统”在业界比较知名,其目前可以在上海市38家市级医院向医生提供近期重复用药、检验、检查的提醒、治疗安全警示以及临床路径(是指针对某一疾病建立一套标准化治疗模式与治疗程序,是一个有关临床治疗的综合模式,以循证医学证据和指南为指导来促进治疗组织和疾病管理的方法,最终起到规范医疗行为,减少变异,降低成本,提高质量的作用)服务。
但是,冯东雷告诉网易科技,这些功能的提供,实际上需要做知识库的建设,但是现在的知识库都是基于现有的教科书、药品使用说明以及一些临床手册,都比较简单,今后要把医生的真实的看病的经验也输入进来,才能在临床上发挥更大的意义,这才是真正的大数据挖掘。他透露,在即将开展的“心血管疾病和肿瘤疾病大数据处理分析与应用研究”的项目中,就有心血管、肿瘤专家参与进来。
2012年,万达信息、国家卫生工程中心就申请了上海市科委医疗健康大数据的课题。在这个项目中,万达信息尝试了对高血压进行大数据分析,试图找到病症、用药和疗效之间的关联。但是冯东雷告诉网易科技,这样的分析目前遇到一些困难。以往的临床研究(随机对照试验RCT)是用实验组和对照组进行的,对照组是一些排除了并发症等相对理想的对照人群。样本量小,但每个样本的数据颗粒很细。但是用医疗大数据做分析的话,样本量很大,但是每个样本数据颗粒比较粗。因此不能套用传统RCT的研究方法。因此需要新的研究思路。目前用大数据已经发现了一些治疗手段和效果的关联性,但是这种结论在临床使用上有多大的意义还有待检验。
这样的研究还在继续。国家“863”计划2015年度项目申报指南中,在生物和医药技术领域已经部署“生物大数据开发与利用关键技术研究”,涉及的内容包括生物大数据标准化和集成、融合技术,生物大数据表述索引、搜索与存储访问技术,心血管疾病和肿瘤疾病大数据处理分析与应用研究,基于区域医疗与健康大数据处理分析与应用研究,组学大数据中心和知识库构建与服务技术等。
万达信息参与了其中的两项,分别为“基于区域医疗与健康大数据处理分析与应用研究”,以及“心血管疾病和肿瘤疾病大数据处理分析与应用研究”。其中后者开展面向中医的心血管疾病和肿瘤疾病大数据分析与应用的研究。
北大医信也在与北京大学合作,研究临床医疗大数据的分析和利用。北大医信服务过的医院超过500家,其中三甲医院200多家,占全国三甲医院总数的1/4左右,北京大学下属有9家附属医院、13家教学医院,这些医院信息系统中积累的大量数据,为进行大数据分析和利用打下了坚实的基础。
北大医信资深副总裁兼CTO邹悦告诉网易科技,目前北大医信的临床决策支持体系正在北京大学人民医院、北京大学国际医院、江苏省人民医院进行试点。
北大医信已经开发了临床预警和建议类的应用。预警类的应用可以根据患者的一些生命体征,判断患病风险并进行提示。建议类的应用,目前北大医信做了糖尿病这个病种,系统可以根据糖尿病人的症状、检验检查结果和病历,给出相应的治疗方案建议。
在临床科研方面,北大医信也做了一些数据分析,并且得到了一些结果。比如,以往子宫内膜异位和子宫肌瘤的误诊率高达65.1%,因为两种疾病的症状非常相似。通过大数据分析发现,卵巢囊肿、腹痛、贫血这三种症状在这两种病中的权重是不同的,子宫内膜异位与卵巢囊肿的关联最强,子宫肌瘤和贫血的关联最强。
“我们分析出了这个结果,但是在临床上怎么用,还要再进一步探讨。”邹悦介绍。
好医生集团董事长高瞻认为,要让大数据产生价值,需要有一条完整的价值链,目前中国的这个价值链还有缺失。大数据的价值链有数据的收集、储存、分析、应用四个环节,但是目前这个产业投入比较多的是收集和储存,分析和应用还比较弱。即使在投入较多的数据收集环节,由于缺乏相应的机制,数据的质量也不是很高。
业内者说:怎么做
在目前的情况下,如何做好大数据?高瞻认为,应当先抓住一些关键业务需求,同时数据基础比较好,先做起来,然后再逐步扩展。他举了两个例子。
好医生集团曾参与过安徽省肥西县卫生局的一个项目。据高瞻介绍,肥西县卫生局将新农合医疗报销系统的数据和卫生局为居民建立的电子健康档案做了一个关联性分析。结果发现,居民的肥胖、抽烟与高血压、糖尿病的发病关联性很强。高瞻告诉网易科技,这不是什么新的发现,但是应用大数据分析的意义在于,之前大家只是从概念上知道肥胖和抽烟会对高血压和糖尿病产生影响,用大数据分析之后,能够真实地看到具体的一个个人的肥胖和抽烟对病症产生了影响。之后,社区医院应用了这个分析结果,给高血压病人、糖尿病病人看病时不光降血压、降血糖,还要干涉患者的肥胖和吸烟。现在整个肥西、还有安徽的很多县都在推广这样的做法,这一个小小的改变,使得很多地方的居民电子健康档案的使用率从20%左右变成了60%—70%,医生们本没有使用积极性的数据库被激活了。
肥西还做了个试验。原来农村治病,不管大人小孩,一般都是开抗生素、输液,好医生集团多年来做乡村医生的培训,呼吁不要滥用抗生素,但是在实际中效果不大。今年年初,安徽省启动了基层医疗卫生机构处方集系统,这个系统可以根据疾病诊断,提示建议处方,旨在规范诊疗行为和用药行为。同时,从今年2月开始,肥西县卫生局每月把医生处方当中使用两种以上抗生素的处方的比例发给医生。结果到了10月份,原来高达20%-60%的数据降到了个位数。
高瞻总结,大数据应用应当先从“Low hanging fruits”,即挂得低的果子、容易达成的目标开始,先把手头有限的“小数据”用好。
这个观点与北京301医院计算机室原主任任连仲不谋而合。
任连仲告诉网易科技,目前中等规模以上的医院起码都积累了数百GB的数据,每100GB的数据就相当于30万份病历。虽然这个数量级还没达到PB级,但是其中一定蕴含着许多有价值的信息。
他拿自己的观察举例说:“我观察了我身边20个左右患恶性肿瘤的人,我发现其中六七成的人在生活中有过非常苦恼郁闷的一段时期。20个样本,就可以总结出一点规律了,何况这个样本量大到GB级呢?那会得到更多、更有价值、更准确的结论。”
他主张先把目前的数据利用起来,现在301医院那些成摞的申请单就是真实的需求。他说:“目前在医院里,这样的服务还是被动的,是医生找上门来我们才提供服务,如果这种服务再进一步走上主动,广而告之,告诉广大医护人员和管理人员我们这里可以提供你们所需的"信息服务",医生在和技术人员在不断交流的过程中,一定能挖掘出大数据更大的价值。”
任连仲今年80岁,但是老爷子嘴里蹦出的词是“快速迭代”,按照他的说法:“好工具是用出来的。这是一个巨大的市场,这个事我们不能等。”