大数据的“不完全代表性” 期待全数据革命

作者: 大数据观察来源: 大数据观察时间:2017-06-12 17:20:430

2014年3月，《科学》杂志在“政策论坛”栏目发表了Laser等人的一篇题为《谷歌流感寓言：大数据分析陷阱》的论文，引起了人们对大数据的警惕。论文作者援引2013年2月《自然》杂志发表的一篇论文所提供的数据指出，谷歌所预测的有关流感类疾病的就医比例，是美国疾病防控中心所获得的数据的两倍多。前者的结论基于与流感相关的大数据搜索得出，而后者的数据依据对全美各个实验室的流感监控报告得出。

谷歌流感趋势预测失真的事实让学者们开始思考这样一个问题：鉴于这是对大数据的补充性使用，我们到底可以从这个预测错误中得到什么教训?Laser等人得出的结论是：尽管搜索或者社会媒体等提供的数据可以被用于预测，但是，大数据远未到完全取代传统方法、假设或者理论的时候。

“不可重复性”危机

Laser等人认为，造成谷歌流感趋势预测失真的两个重要因素是数据自大(data hubris)和搜索运算动态性(algorithm dynamics)。数据自大是指：大数据不仅仅是补充性的，而且可以完全替代传统的数据采集和分析方法。搜索运算动态性是指：数据运营商为支持其商业模式、改善其服务质量、适应用户行为的改变将对搜索运算方法产生各种影响。以谷歌流感趋势预测为例，因其致力于不断地测试和改善搜索体验，故搜索运算方法一直在变，而这不仅是谷歌众多工程师反复决策的结果，同时也是其分布在世界各地的数以亿计的客户的搜索行为所致，并最终影响其预测结果。每一次数据运算收集和运算方式的改变，都在影响数据生成和收集的连贯性。另外，一些有影响力的搜索主体，还会试图通过操控数据生成过程的方式来达到自己获取经济、政治或者社会收益的目的。如此，数据生成和收集之间将出现断裂。

搜索运算动态性因此可能导致大数据研究的“不可重复性”危机。可重复性是指科学研究被重复实施时得到的结论与原研究结论之间的一致性程度，它是科学与非科学的分界线。目前，几乎所有的大数据研究都面临“不可重复性”危机。数据搜索方式的频繁改变，使人们无法获取连贯的大数据。这使其研究不可被证伪，因此有效性大打折扣。

大数据的“不完全代表性”

大数据所面临的另外一个挑战是，其本质上具有“不完全代表性”。社会各界对于“大数据”的一个较为广泛的看法是：数据量越大越好。但这并非绝对。事实上，大数据的价值在很大程度上取决于其连贯性与代表性。

大数据概念的提出，使得所有依靠传统方式收集到的数据变成了“小数据”。但受制于数据生成、收集、遴选和加工等因素的局限性，所有数据本质上都受到“不完全代表性”的困扰。作为“小数据”的范例样本，语料库的“不完全代表性”屡屡受到学术界诟病。语料的收集实际上就是对其的有原则选择，而选择总是意味着丧失一些重要信息。如此一来，语料库总是有局限性。

必须指出的是，大数据本质上也是“不完全代表性”的。这主要体现在以下四个方面。

其一，大数据在很大程度上是外部事件驱动以及数据服务商商业模式主导的结果。大数据的代表性与用户搜索行为的代表性密切相关。但是，现在用户的搜索行为在很多时候都受到外部事件驱动。Laser等人观察到，不仅如此，服务商还会根据各自的商业模式有意识地对用户的搜索行为进行诱导。

其二，大数据有可能受到数据运营商的操纵。在大数据产业链上，一个公开的秘密是，数据运营商时刻都在利用各种软件监控网民的搜索行为和习惯。这种监控越成功，用户的搜索行为越受到操控，最终得到的大数据也就越缺乏代表性。

其三，大数据在某些情况下可能只是诸多无效信息的无度膨胀。大数据所收集到的海量信息，很可能都是人类各种转瞬即逝行为的碎片或痕迹，而后者只是各种外部因素和内部因素，如情绪、欲望、从众效应等合力作用的结果，在很大程度上可能与用户的基本行为模式或者价值体系背离。

其四，真正有价值的数据是认知无意识数据，但限于目前的大数据挖掘技术，这部分数据仍不可能被挖掘出来。甚至在将来的很长一段时间内，我们也还没有能力挖掘人类认知无意识活动的技术性留痕。

期待全数据革命

此外，大数据还面临其他挑战。如大数据生成的有效性问题。Laser等人指出，很多引起大众关注的大数据都不是由专门为科学分析需要而设计的、可以收集到有效而可靠资料的各种数据收集工具的产物。又如道德问题。在大数据时代，每个人都是大数据的贡献者，当我们浏览网页、网购、扫描二维码、使用微博和微信以及安装手机应用程序时，我们的个人信息、消费习惯、偏好、社交圈子等，均已经被大数据生成工具捕获，从而在不自知的情况下泄露了隐私。大数据对用户隐私的侵害，可能给用户的资金、财产安全，甚至个人安全造成潜在的威胁。再如大数据对“小数据”的完全排斥问题。这主要表现在：传统的“小数据”所提供的信息通常不包含在大数据之中。Laser等人观察到，谷歌流感趋势预测忽视了很多传统统计方法可以获取的信息。

Laser等人指出，鉴于大数据所面临的各种危机和挑战，在当下我们应该聚焦于“全数据革命”而不是“大数据革命”。全数据革命的核心思想是，我们应该认识到世界的关键变化在于：创新性地分析从所有传统和新媒介获取的数据，以更为深入透彻地理解世界。由于创新的数据分析方法关涉到创新性的思维或者认知模式，因此，全数据革命的核心在于以巨延性的“大认知”代替“大数据思维”。广义上，“大认知”指的是一种大大超越人类认知极限的、以理解世界整体为最终目的的巨延性概念化活动。狭义上，其指的是一种大大超越人类认知极限的、以理解某个特定区域(如国家或者地区)或者领域(如某一行业或者某一专业领域)之方方面面为最终目的的巨延性概念化活动。

目前，大数据产业链条业已形成，其包括数据需求、挖掘、生成、存储、管理、查询、提取、处理以及展示处理分析结果和应用等多个环节。其中，大数据处理环节至关重要，并涉及一系列难题：数据可靠性甄别、数据测量、数据有效性判断、数据之间关联性和依存性判断、数据的模式化以及数据的价值判断等。这些难题是单纯的“大数据思维”所无法解决的。

“大数据思维”本质上是“技术性思维”的互联网化，主要试图利用机器的无限运算以及多元回归能力完成数据的模式化分析。但此概念的认知陷阱在于：错把技术性思维当成思维的全部。事实上，思维是个外延极其广泛的概念，它既有技术维度，又有心理、认知、社会、政治及文化维度。鉴于大数据在数据量方面的巨延性，因此，要真正实现对大数据的创新性分析，我们需借助在概念化方面有着同样巨延性的“大认知”。

(本文系国家社科基金项目“词典释义的完备性描述研究”(11BYY088)阶段性成果)

原文标题：从大数据危机到全数据革命

看过还想看

可能还想看

热点推荐