banner

(连载二)当大数据与医疗“邂逅”,将擦出什么火花?

作者: 大数据观察来源: 大数据观察时间:2017-02-19 11:01:010

接上篇:(连载一)当大数据与医疗“邂逅”,将擦出什么火花?

挖掘互联网

互联网是一个无限的数据源,通常包括文本、图片和其他多媒体等内容。在大多数情况下,为了从互联网中抽取知识,需要借助一种叫做自然语言处理的技术。这项技术可以追溯到1950年,当时阿兰·图灵提出一种计算机智能标准,就是现在的图灵测试,它的典型应用在语言翻译上。20世纪50年代,人工智能工程师乐观地预测,机器翻译将在十年内成为现实。但遗憾的是,实际进展要比预期慢得多。但是,当语言被应用在一个较小的领域时,(如在智能手机上完成工程任务、飞机票预定、医院接待等),这一技术已经取得了突破性进展。因此,能够处理来自互联网的连续数据流信息的工具通常都是针对特定领域的。

谷歌流感趋势预测

谷歌作为搜索引擎巨头,通过挖掘遍布全世界各地的用户,产生了数以万计的搜索词条,开发出流感趋势预测服务。通过这些搜索词条,谷歌向美国疾病预防控制中心提供了流感监测数据。他们发现,搜索到的与流感相关词条的人数与实际有流感症状的人数之间有着密切关联。

可以说,根据搜索词条评估流感趋势和传统的流感监测是一场势均力敌的比拼。

虽然两者的准确率不相上下,谷歌每天都可以在原有数据基础上更新数据集,但传统的流感监测数据库却只能每周更新一次。实时的流感评估有助于公共卫生部门官员和专家更好地预防和应对季节性的流行病。

传统的监测系统一般由地方政府运行,提供的数据结果有所局限,而谷歌却能够提供世界各地的数据结果,也是IT解决方案的一个显著优势。不管政治、战争和文化差异如何分割世界,只要我们连接了互联网,就能满足世界各地不同人群的需求。依我个人看,谷歌流感趋势预测,对社会产生了积极的、正面的影响。

从互联网搜索发现药物潜在副作用

类似于在谷歌流感趋势中应用的数据挖掘技术,一些来自微软、斯坦福和哥伦比亚大学的学者通过挖掘互联网搜索发现药物潜在的副作用。

他们甚至有这样的能力,在美国食品药品监督管理局(FDA)警告系统出来之前就能探测到处方药副作用。传统渠道上,医生往往通过一个不良事件报告系统向FDA通报药物副作用。这项研究最早开始于斯坦福大学,一些研究者试图利用搜索FDA数据库,来发现药物相互作用的过程自动化。以两种药为例:抗抑郁药(帕罗西汀)和降胆固醇药(普伐他汀)。2011年5月,斯坦福大学成立团队,从那时开始他们就可以探测到药物相互作用。

他们猜想,是否可以用互联网搜索做这样的事情。随着微软研究力量介入,他们接手了2010年网络搜索日志的六百万互联网用户的查询数据库。研究者开始查找和上述两种药相关的搜索条件。研究的结果显示两种药的组合会引起高血糖。现在,他们正在考虑从社会媒体中增加数据来源,由此带来的挑战也产生——挖掘用户网上足迹的同时保护其隐私。

连同谷歌流感趋势预测,通过挖掘在线数据探索药物副作用的研究表明,运用恒定的互联网数据流和数据挖掘技术,我们更有潜能,制定出比以往更有效、更灵活且花费更少的解决方案。

健康数据服务

写到这里,我们讲的一直都是分析数据以及结合问题的形式解读分析结果。在上述各个应用中,数据似乎是免费采集的,并且是专门为一个设计好的实验采集的。以上述其中一个使用声音信号来诊断帕金森氏疾病为例,捐献样本的人都是没有任何回报的,并且数据内容的各项属性,如音质、采集仪器/工具、长短等都是围绕着实际应用所需而定的。使用网上应用时,用户经常有意识或无意识地在服务条款中把自己的匿名处理后的数据使用权授予应用的开发公司。也有些研究项目会向提供样本的用户给予小额的现金回报。

当大数据应用普及后,人们开始意识到数据本身的价值。许多公司试图收集客户的信息。大部分采集信息的方式都是无害的,但仍让客户感到不悦,如在线购物网站收集客户网上浏览的历史,超市使用会员卡记录客户的购物行为,主要目的是向客户推送个性化的广告。也有“不怀好意”的应用,例如通过挖掘一个人在网上搜索关键词和浏览历史相关记录对这个人进行行为分析,并且将分析结果卖出去。个人的病历是保密的,如果一个员工得了抑郁症,他/她的公司通过这类应用可以非法得知员工的病情,这个员工可能面临着被开除的危险。

放下伦理这个问题不说,我们还发现了一个公认的现象:数据变成了非常有价值的一个资源,然而对此现象的观点则与个人的立场相关。作为一个产品的客户或用户,我们都希望能够保护自己的数据,尤其是当这些数据与个人隐私相关时。出于种种原因,公司/企业则迫切希望能掌握客户/用户的数据。因此,一个一直隐约若现的问题便浮出水面了——怎么用数据来挣钱。

微软的 HealthVault

微软的 HealthVault ,即健康保险库,是一个健康数据的云存储服务。简单来说,这个服务为两个不同的用户群解决问题:让病人在网上能看到自己完整的病历。此外,还为医疗传感器的厂商解决了传感器相互兼容的问题。

在美国,依据传统的做法,健康档案由各个医疗机构如医院、私人诊所和偏远医疗巡回站等保管。如果病人想看自己的病历,必须向相应的医疗机构申请。这种方式有两个缺点:一是,实体的档案难以长久保管,尤其是当数量非常大时;二是,档案的来源非常分散,病人难以一次集中性地查看自己的病史。

为了改善这些缺点,微软HealthVault与众多本地的医疗机构合作,把病人的健康档案存储到微软的云数据库上,同时为病人提供一个集中的个性化的个人健康档案总览。

除了健康档案和在医院里做的测试(如心电图、血压、超声波、CT扫描)外,HealthVault还增加了从家庭使用的医疗传感器上自动实时采集数据的功能。这些传感器包括血压计、温度计、血糖计、体重计、心率、心电图仪等等。在硬件产业界,一个普遍的现象是各厂商各自为政,同类型的产品缺乏统一的标准。以医疗传感器为例,即使是同类型的传感器,如血压计,不同厂家生产的产品的数据格式有可能不一样,部分原因是由厂家之间商业竞争导致的。从数据分析解决方案提供商的角度来说,导致了数据不兼容的问题。

为了解决数据解决分析方案提供商这个痛点,HealthVault开发了一个软件数据接入器,任何传感器的厂商都可以与这个接入器做接口。这个决策也提升了广大的软件应用开发者们对微软的忠诚度。当然,这个统一的数据接入解决方案的价值是与为此提供相应的接口的硬件厂家的数量成正比的。这就需要大量的人力、物力来推动硬件厂商们对这个解决方案的采用。所幸的是微软资力雄厚,目前已有185个型号的传感器接入了HealthVault。

一个开放的脑部扫描图数据库

谈到信息,人们一直存在着两种相反的意见:一部分人倾向于对信息的获取进行控制;而另一部分人则致力于开放信息。知识产权法的制定本意是好的,即为了保护创新人的权益。然而,知识产权的申请流程却需要耗费大量的人力财力,以至于使这个法律逐渐变成了一个大富翁游戏。

开源软件是一个广为人知的致力于防止知识产权法成为阻碍技术发展的活动。“开源”一词的哲学思想很早就存在于人类文明中,早在计算机被发明之前,人们就公开菜谱、公开衣服剪裁的设计等等。开放数据也是基于同样的哲学思想,认为某些数据应该让每个人都能自由地使用和再发布,不受限于版权、专利或者通过其它手段进行的控制。有一组研究人员正在做一个叫做Human Connectome的项目,其宗旨就是要把脑部扫描的图片都免费开放给民众,供他们使用。

截至2013年3月,这一研究小组从68个健康的志愿者那里收集了几千幅的扫描图片,共有两个TB(1TB=1024GB),其最终目标是要在五年内完成1200个成年人的脑部扫描图的采集任务。这些数据将都放在此项目网站上,让人免费下载。

利用这些图片,神经系统科学家对脑部实验了一项简单的任务(如识别一张脸),进而对进行协调作用的部位得到了前所未有的理解。这个研究组还使用了开源的图像分析工具来让研究人员进行复杂的数据库检索。

这个项目让人拍手称赞,但也有批评的声音。伦敦大学维尔康基金会的董事Karl Friston认为项目组在采集数据时并没有与一个实际的研究问题建立联系。他更希望看到资金被用于由研究问题指引的脑部扫描,例如“疾病或实验干预对脑神经元之间的链接会产生什么样的变化”等。Friston的观点不无道理,他认为数据采集的内容和数据模型都与数据使用的目的息息相关,不考虑使用的目的往往会导致采集的数据不全面。

个人认为,这个批评也许过于苛刻了,因为我认为Human Connectome的研究组有几个明确的研究问题,只是他们在做自己的研究的同时也把数据库开放给公众使用。在回应Friston的评论时,Human Connectome的研究人员说他们希望这批数据会引发他们没有预想到的,或者在他们以前没认识到的应用领域的,新的研究课题。我也倾向于对Human Connectome研究组持支持态度,并衷心希望他们的好意会在多个领域开拓出突破性的思想。

虚拟助手

人类是非常善于把重复的任务抽象化,然后发明机器来取代人类劳动来完成重复性的工作。我们已经发明了装配流水线、洗衣机、复印机等。有些发明,如搜索引擎,我们使用得如此频繁以至于认为是理所当然的,也许很快我们就会忘记以前人们是怎么检索的。我们还有一个特殊的能力——永远追求更好,如更高效率、更大的灵活度、更高的智能等。以电话自动应答机为例,老一代使用电话上的按键来和通话人沟通:咨询业务请按1,查询余额请按2,转人工服务请按3。但是并不是所有的信息都能够利用电话的数字按键来完成的。例如英国的邮编就包含了字母,因此就为自动应答机增加了带有语音识别的邮编识别功能。然而我们的要求不仅如此。我们发现为自动应答机加入语音指令的识别,能让它为我们提供各种各样的服务,我们可以通过语音指令来让应答机执行如下任务:天气查询、语音阅读邮件、语音拨号、语音搜索等。如果为这个应答机加入对自然语言的识别和理解以及专职于不同领域的知识的语音识别功能,这就变成了我们智能手机上的虚拟小助手了。

虚拟接线员和虚拟医生

Indisys是为数不多的为客户提供订制的语音虚拟助手服务的公司之一 。该公司已经为几个行业的客户订制了语音虚拟助手服务,包括:电话接线员、购物助手、客户顾问、e-learning、 email管理、语义查询等。该公司和医疗的结合点则是一个虚拟的电话接线员,就是专门为医院定制的。医院的电话接线员需要具备医疗服务的基本知识,例如在为病人预约时,要记录他们的名字、出生日期、病症、病人配备的医生预约,或与其他医生在病人要求的时间预约。为了合理利用医疗资源,在一些实现了全科医生初诊和预约机制的国家,医院的电话接线员还需懂得根据病情判断病人是否只需要护士,把病人转到护士部。Indisys为医院定制的虚拟电话接线员就能完成上述的任务。

虚拟助手背后是多项技术的结合:语音识别、自然语言处理(NLP)、人工语音合成及知识库。这些技术的研究和开发都需要大量的培训数据(为机器学习所用)和相应的人工智能算法。当我们已经在语音识别、人工语音合成方面取得了相当大的成绩,在自然语言处理和知识库方面,我们仍然挣扎在起跑线上。原因是我们人类大脑中对抽象知识(其特点是不能仅通过感官信号来表现,需要通过语言的表达来完成对知识的表现)表现方式的理解非常贫乏,而自然语言的理解需要的不仅仅是词语的发音,更重要的是与语境相关的背景知识。

如果能够拓展虚拟助手的知识库到涵盖医生的知识,那么我们就有了一个虚拟医生。尽管困难重重,虚拟医生的发展方向仍然是非常吸引人的。因为一个人成长为医生的过程是很漫长的——在18岁后参加5年的本科医学教育,两年实习,再加上时间不等的专科方向或全科的培训。与之比较,机器是不需要休息的、不需要交际、不需要学习除了必须的领域外的知识,可以被不停的灌输专业知识。如果我们能够把学习的过程抽象出来,我们就能够在很短的时间内把一个机器培训成为医生。遗憾的是,到目前为止,我们仍然还不知道我们大脑对知识的表现方法,尽管我们在不知不觉中无时无刻都在进行知识的处理。如果我们能够解读人类学习的过程,我们就能够实现虚拟医生,更不用说虚拟电话接线员了。

发掘人类学习的过程这一任务就如同人工智能研究领域的一个终极目标,因为它不仅仅充满了技术挑战性,同时更引发了许多人的辩论,因为这种技术的存在(如果存在)意味着我们能够完全实现一个人造的可像人一样思考和行动的个体,也因此我们能够把自身的“意识”转移到这个个体上,而这个个体完全可以摒弃人类老化的弱点,进而意味我们可以永远活下去。

关于人类永远活下去可能产生的问题超出了本文的范围,暂且不谈。我们仍然有很多的原因要实现虚拟医生:消除人类错误、腐败、提供24×7的医疗服务、降低医疗成本、远程医疗……这就是IBM Watson项目组在致力研究的一项技术。Watson是一个人工智能软件系统,它能够回答以自然语言方式提出的问题。为了展示Watson的能力,IBM为它报名参加了美国一项知识问答型的电视游戏:Jeopardy。有趣的是,前两届的冠军都败于Watson脚下。这场表演不仅具备教育性,也充满了娱乐性,最重要的是通过这个游戏Watson成为了家喻户晓的一个“明星”。

今年初,IBM公布了Watson的第一个商业应用——肺癌的治疗管理决策。据IBM有关人士说,90% 与Watson合作过的护士都乐意遵循它的指导。当这类技术成熟到可与人类相比时,促进传统医疗系统对类似于IBM Watson技术的采用的最大绊脚石其实是传统系统对新技术采用意味着的利益重新分配的抵触。

如今我们在医院已经有了虚拟接线员,专职于一个非常狭窄领域的虚拟医生,我们期待着的下一个大改变——全世界都在期待着一个虚拟的全科医生!

文/ 梁伊晴 (肯特大学荣誉研究员、Hackidemia中国区首席代表) 译/ 张弛 李翔

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限