（连载一）当大数据与医疗“邂逅”，将擦出什么火花？

作者: 大数据观察来源: 大数据观察时间:2017-03-28 16:31:320

对我来说，大数据是一个新的名词，尽管我在该领域已工作十余年。我曾以软件工程师的身份在中国电信—广州研发中心工作过，跟同事们合作开发业务支持系统。在前三个月，数据存储在数据库中，之后转入数据仓库。这些数据为市场分析、商业评估、公司政策改变服务。之后我离开那里，攻读博士学位，参与了分析中风病人的手写笔记图像项目，以求帮助诊断视觉空间失感症（VSN），它是一种中风后遗症。

尽管应用各不相同，但其背后原理却是相通的——发掘数据的意义。这个领域的研究通常会提及数据挖掘、机器学习和人工智能。如果从一个数学家或者统计学家的角度看，它们仅仅是一些方程式而已。然而，对普通大众来说这些陌生的词却准确地抓住了“技术”层面的内容。人们或多或少会对大数据有所了解，它比简单的数据分析方法蕴含更多的意义，研究数据的体量会对结果可信度带来显著的改变；数据可视化会带给人们对数据直观的感受；数据的类型可以揭示许多先前未曾被发现的知识领域。

最终，在许许多多的意义中，从商业导向思维看，意味着一种全新资源。

本文中，我想探究上述提及的某些和医疗保健相关的应用。许多人已经意识到统计方法在临床试验上的应用。设计临床试验通常需要在病患组和控制组之间设置一定已知的比照变量，这是大数据在医疗上最简单的场景（方案）——有明确的问题（预期结果）。然而，我相信大数据这个概念迅速普及的原因在于其可以发现潜在的新知识。在此场景中，如果有明确的问题，任务就变为发现相关变量并将其影响加到预期结果上。知识发掘算法的特点在于它不需要对问题（预期结果）进行定义。分析的过程中首先会发现与关注的变量同时改变的其他变量，这些变量中会出现后续分析的兴趣点，并成为预期结果。

大数据技术的典型运用是让医学诊断过程全部或者部分自动化。研发一项可以替代人类医师的通用诊断技术，可以说是数据科学家在医学应用领域的终极目标，但还存在着难以逾越的技术挑战。但是如果采取分步攻克的策略，把这个终极目标分解成阶段性或者局部性的需求，并对它进行明确的定义，我们就会接近这个目标。例如，允许慢性病人对病情进行自我管理，这个应用就部分代替了医师对病人的慢性病进行监测的工作。

通过“手画图”检测VSN

我要呈现的第一个实例来自我的博士课题。视觉空间失感症（VSN）是一种中风后遗症，它的典型症状是病人无法对部分视野的刺激物作出反应，大概30%的中风病人会产生此类后遗症。目前临床医生对VSN进行诊断的方法主要是为病人进行一系列的手画图测试。其中，行为忽视测试（BIT)是一套被普遍接受的检测VSN病症的标准测试。

举例来说，在其中一个测试中，病患者被要求在一个代表钟表盘的圆圈中画出小时刻度。通常，人的反应是在表盘上均匀画出12个数字，但VSN病人则倾向于留下一些位置不画。有些病人有可能画出了12个数字，但是这12个数字被挤在表盘的一部分上，仿佛部分表盘对他们来说消失了。基于病人所画图的完整程度，由接受过专业训练的临床医生完成测试评估。

从另外的角度看，我们观察到，VSN患者在整个测试过程中表现的很犹豫，体现在任务执行时间、拿笔的时间、运笔速度，还有过多地在空中运笔等动作上。这些特征都可被电脑手写板捕捉和定量测量出来。我的研究焦点是由可量化的特征分析出病人是否具有VSN症状及其严重程度。

因为该症状的稀有性，数据收集变成一项很困难的工作。在长达两年的时间内，我们只能从33个VSN患者和100个无VSN症状的中风病人中收集测试结果。在全球大数据科学中，这是一个非常小的数据集。运用统计模型，除去小数据集合对结果可信度的影响，我们的结果可以达到90%的准确度。

尽管不能达到100%的准确度，这个实验的结果证明，如果把通过“手画图”的结果对VSN进行诊断的工作自动化，可达到消除人的主观性造成的误差，这个意义大于结果中存在的小部分准确度损失（10%）。第二个意义是，由于如VSN等中风后遗症的高死亡率，监控病患的恢复过程尤为重要。在做出性能表现上的小妥协后，我们的方法是让未经训练的护工进行测试，从而还引出其他好处，包括减少人事开销和提高测试的频率等。

针对帕金森氏综合征的电话测试

帕金森氏综合征是另一种常见的慢性神经退化疾病，其特征在于患者的身体运动能力逐渐退化并出现一些严重的并发症。对运动迟缓（动作缓慢、运动幅度减小）、刚性（被动运动耐力）和震颤（休息时表现出来）等三个标志性症状的检测可以被用于早期病情诊断。

有趣的是，据一些文献报道，语言障碍可能是帕金森氏综合征的早期病理表现之一。虽然这一观点的病理解释尚未完全得到证实，但是语言功能退化和帕金森氏综合征症状严重性之间的关联已经得到了经验数据的有力支持。在这个典型案例中，大数据方法的优势完全体现出来。

一组来自牛津大学、麻省理工学院以及科罗拉多大学的研究专家采用语音样本研究帕金森综合症的初期病症。此外，为了提高终端产品的易用性和便携性，研究人员进一步限制了数据采集的条件：语音样本必须使用手机通过移动网络采集，低品质语音样本的使用增加了技术难度。不过，经过研究人员对数据分析算法的提高，能够使其达到与高品质样品相同的效果。

在与传统测试方法比较时，这个研究项目与自动化的VSN测试有类似的优势：非专家、自助测试、低成本、可频繁使用。此外，它可以远程且随时随地操作。虽然准确性十分重要，但是上述优势是该项技术被大规模采用的决定性因素。在该测试中，人们能够在帕金森氏综合症的初期就开始监控病情。早诊断意味着早治疗，更好地维持病人的生活质量，减少病人的药物支出以及获得其他益处。

这项研究由Dr Max Little在TED讲堂上提出，并向世界各地的群众征集研究样本。没想到，不出8个小时就有超过600人捐赠了他们的语音样本。

此类应用往往有两个共同的特性：从动机的角度看，其目的在于赋予患者对病情的自我判断能力，加强未受训练的医务工作者的职业技能和知识。这些应用通常会降低实现成本、提前确诊、减少员工培训成本，最终产生经济效益。

遗传分析

1865年孟德尔率先发现了基因在遗传方面所发挥的作用。他的研究影响广泛，引领了一个全新的学科的产生。自孟德尔之后，来自世界各地的科学家们开始研究这一学科。20世纪70年代，科学家获取了第一个完整的人类DNA基因序列。直到近期，一般消费者才能够购买到检测DNA序列和进行遗传分析的商业工具。DNA测序技术便是这一漫长等待的原因之一，数据收集是另一原因。为了使 DNA序列能被应用于遗传疾病分析、家族性状分析及其他应用，需要收集大量的数据。现在，漫长的等待已经结束，用于遗传分析的商品化试剂盒在未来会更具成本效益。

23 and Me 基因测试

2012年，在参加由美国奇点大学（Singularity University）举办的创业培训时，我很荣幸参加一家叫23 and Me的新兴公司提供的基因测试。

检测试剂盒是邮寄给我们的，它包括小型塑料唾液采集容器、条码贴纸和书面指示。用户将唾液密封在容器中，并在容器上贴上条码。然后，该样本被邮寄回23 and Me公司，两周之后，检验结果出来，每一位用户都能够在线浏览自己的DNA序列检测报告。

该报告非常全面，它包括：

（1）祖先：在23 and Me公司的数据库中，全球人口被分解为22个不同的祖先起源，包括英国、爱尔兰、斯堪的纳维亚、意大利、德系犹太人等等。报告给出了参与者的基因中来自22种不同祖先起源的基因比例。

（2）父系和母系遗传：与祖先历史类似，但追溯的历史更久远，到一万年前，从超过750个母系血统和500个父系血统中发现参与者的独特历史。

（3）已知疾病的风险：与平均概率比较，评估参与者的基因可能患上可遗传疾病的概率，该公司已建立249种疾病的基因库。

（4）药物反应：针对参与者身体对药物的敏感性给出明确信息。

批评者指出，这类商业工具的数据库还远远没有完善。因此，遗传分析的结果，尤其是关于疾病风险的报告并不可靠，未来发展前途是值得商榷的。在测试之前，我有些担心如果测试发现自己患有某些疾病的风险比较高，这样会增加心理负担，但最后，我还是禁不住这么一个免费机会的诱惑，为自己做了基因测试。

不过我的很多同事都没有这一心理斗争，但这并不意味着检测结果都是令他们高兴的。一个女同事发现她患阿尔茨海默氏症的风险是平均水平的4倍，这是不寻常的高风险值。她变得很不安，不过，她很庆幸自己做了这个测试。因为这一点，她决定在40岁后开始定期检查。如果能够在患病早期确诊，并进行适当的治疗，病人就能对病情进行控制，维持与常人一般的生活。

毫无疑问，该产品的核心价值在于健康信息。此外，在我看来，公司的商品设计者非常成功地利用了人们的社交元素，通过包含家族历史和名人的血统关联等服务吸引了很大的一个客户群。

对聪明基因的追寻

在基因组分析的研究界，中国是一颗冉冉升起的新星。在许多不同场合，我都听到过这样的评价。例如，在奇点大学的一次DISA生物技术研讨会上，中国被多次提到，“中国在再生医学上一路领先”，“中国将会在营养基因组学研究中领先世界水平”。

事实上，中国拥有着可能是世界上最大的DNA序列数据库。据《华尔街日报》报道，中国生物技术巨头BGI公司拥有156个DNA序列机，产生的遗传信息占全世界总数量的10%到20%。该公司正在逐步壮大，2012年，该公司同意以11.7亿美金收购Complete Genomics。

有趣的是，该公司目前将DNA序列用于调查决定天才的基因组。这项研究由来自中国的学者Mr Zhao Bowen主持，共对2200个基因组进行了研究。其中1600个基因组由伦敦大学国王学院的Dr Robert Plomin提供，Dr Plomin收集了众多智商超过160的人的DNA数据（平均智商在100上下），用于对数学开蒙早的青少年的研究，数据库的其余部分从随机选择的人群中收集。

与所有大数据应用类似，基因组序列的数据也被分组分析：通过对高智商人群和随机选择人群的基因组分析，以寻找不同群体基因序列之间的差异。数据方法十分直观，但这项任务充满了挑战。首先，对于智商的定义本身就是一个未解的哲学问题。BGI将IQ测试作为智力水平的一个评价指标，IQ分数被用于预测教育成就、特殊需求、工作绩效以及收入等。在我看来，这些指标只能代表人类智商的一小部分，但却是社会最感兴趣的，因为社会最需要的是具备这类能力的人。

第二个挑战是数据集的规模。一个明显的对比是：在研究决定身高的遗传基因时，人的身高差异是由大概1000个基因决定的，但是科学家需要研究10000个基因组才找到这1000个能在一定程度上解释人类的身高问题的基因。如果身高的遗传因素是微妙复杂的，那么决定智商的基因数据量一定超出了现有的研究能力。因此，该项研究中BGI所收集的数据集是非常小的。

BGI的使命留给世人一个很大的问题：如果他们认为已经发现了决定智商的基因组，他们将如何利用这些信息？这个应用虽然看起来和医疗保健没有关系，但是也不是完全没有关系。在我看来，这类应用有更大更广阔的前景，即不断发现人类的缺陷。另一方面，作为一名谨慎的科学乐观主义者，我想进一步说明的是，寻求智慧基因，让我想起了《勇敢新世界》这部科幻小说，其中提到新生婴儿的外貌和智商以至于由此决定的社会地位从胚胎阶段就通过基因改造的手段来决定了。这项技术是一把双刃剑，它的未来是喜是忧还是要看人类怎么去应用它。

（连载二）当大数据与医疗“邂逅”，将擦出什么火花？

文/ 梁伊晴 (肯特大学荣誉研究员、Hackidemia中国区首席代表) 译/ 张弛李翔，本文版权归《中国信息界》杂志社所有

看过还想看

可能还想看

热点推荐