用大数据计算新闻偏见，可行吗？

作者: 大数据观察来源: 大数据观察时间:2017-08-28 18:08:140

最近，一篇名为《哪国媒体最反华，直觉又错了！》的文章刷屏了笔者的朋友圈。该文称，利用大数据技术对几千万篇中外媒体报道进行分析后发现，美国、英国媒体对中国的评价总体为正面、且接近实现了新闻客观性，而中国媒体不仅是唯一一个把祖国评价得很高的媒体，更是对美国、日本、印度等国家充满了严重的媒体偏见。

说实话，一开始笔者也被这篇文章吓懵了，甚至还默默给它点了个赞。但没过多久，几个在外留学的朋友却跑来找我吐槽：“我们在国外明明每天都被低端黑啊，怎么一用大数据就成总体正面报道了？这个统计结果到底靠不靠谱？”

一言点醒梦中人，笔者不禁陷入沉思，数据确实不会说谎，但若是错误的数据、错误的方法呢？社会学家对“大数据崇拜”的批判由来已久，其是否真能展现完整真相？

对此，笔者对三位专业人士进行了采访，并再次检视了该文的数据库、指标计算、统计方法等。最后，三位专业人士和笔者得出的一致观点就是：该文利用大数据所得出的几条主要结论，基本站不住脚！

下面，笔者将以自己一个技术小白的视角，来为大家解释一下这个所谓的“大数据分析”到底是个什么。

《哪国媒体最反华，直觉又错了！》摘要

本节为该文摘要，比较了解的读者可跳过。

该文称，在GDELT数据网站上下载了近两年各国各网站的所有新闻，总共有几千万篇。同时，该网站为每一篇新闻标了一个sentiment index（褒贬指数），范围是在 -20 与 20 之间。褒贬指数越小，说明这个国家的媒体对另一个国家的负面报道多一些（有偏见）；褒贬指数越大，说明这个国家的媒体对另一个国家的正面报道多一些。

随后，该文将中国媒体对他国的所有报道和他国媒体对中国的所有报道，做了个褒贬指数平均值，得出了所谓英美媒体“理客中”，中国媒体“最偏见”的结论。

然而，该文只讲了结论，并没有列出任何技术性的操作，所以，必须检视其数据库与计算方法。

该文章计算的结果，是媒体偏见吗？

该文的核心概念是“褒贬指数”，但很可惜，在美国某计算机公司就职的程序媛小C和中国人民大学社会学硕士孙广阳，在对该网站进行了数日研究之后，均没有找到这个sentiment index。

但是，数据库提供的另外一个指标，AvgTone（平均语气），却像极了该文所说的“褒贬指数”。数据库的操作说明对“平均语气”的解释是：该属性值是所有文章提及该事件时“语气”的平均值。分数范围从-100(极消极的)到+100(极积极的)。一般是从-10到+10之间，0表示中立。这可以用作过滤事件的“上下文”的方法，从而衡量一个事件的重要性和影响。在笔者询问了该文原作者到底是哪个指标后，原作者也表示“应该就是这个（AvgTone）”。

那么这个数值代表一篇报道对一个国家的褒贬吗？小C下载了最近一周美国对中国的数据和中国对美国的数据，发现了一些好玩的东西。

在美国对中国的语气中，得分最高的一篇新闻，是在讲中国庆祝新年；得分最低的一篇新闻，是在讲中国决定加重对经济犯罪的惩罚。在中国对美国的语气中，得分最高的一篇新闻，是在讲华人在美国一家博物馆庆祝新年；得分最低的一篇新闻，是在讲中国抓捕贪官。

很奇怪对不对？有的把正的讲反了，有的则少了一个主体。还有一个更奇怪的：一个中国对美国语气为-22.8的新闻，讲了美国俄亥俄州一名男子枪杀警犬、抢劫店铺，全程跟中国没有半毛钱关系，那为什么会被计算进来呢？笔者细细比对后发现，估计是系统把canton police（州/行政区警方）翻译成了广州警察……

所以说，这个算法，笔者真心不懂。当然，大数据极其杂乱，需要有很高的容错度，但即使抛开算法不谈，这个“平均语气”与所谓的褒贬还是有很大的差距的。比如，中国庆祝过年自然会出现庆祝、聚会、开心等比较喜庆的词汇，系统自然会把它们都当做积极语气，但这算是对一个国家的褒扬吗？自然不是的。

事实上，这个计算工具和指标根本不是在讲a国家的媒体对b国家报道的褒贬值，其实是各个国家各个媒体报道的a作为主体、b作为客体时的情感分析。

从对工具使用方法的说明中，我们看到，条件设置的是主动者（actor1）将事件（event）执行到被动者（actor2），是各个国家各个媒体报道的a对b的事件，而不是a国媒体对b国的报道。如果嫌这句话绕口，另一个简单的证据就是，如果一个人想了解中国媒体对美国的报道，自然要读人民日报、新华社通讯了，但当笔者选中中国对于美国时，出现的全部是英文报道，也就是说，a对b的数据里，根本不是a国的新闻，而是世界的各种英文新闻，然后a作为主语、b作为宾语出现而已。所以，这个数据和指标并不具备分析a国对b国态度的作用。

绝大部分数据来源是国外，只有小部分是国内媒体的英文报道，就可以说“中国媒体最偏见 ”了吗？这个锅，我们不背。

“平均值”平均掉了哪些信息？

虽然GDELT没有给出它的计算方法（给了我也看不懂），但该文所做的“平均值”分析，却是有很大问题。

举个例子，有20篇报道讲中国好吃的很多，每篇得分1分，那么就是20分。后来，又有一篇文章把中国击毙恐怖分子说成了镇压民众，得了最低分-20分。两项加权，结果是0分！先诬陷你“屠杀平民”，再说点你家东西真好吃之类的话，就是公正客观了吗？显然不是。

佛罗里大学公共关系学博士张天铎表示，英美国家对华主要的媒体偏见不体现在所有报道中，而是集中在重要政治和外交议题的事实性定义上。这些议题占总量很小，但影响很深远。另外，正面的语气与否不能证明是否报道偏了，因为意识形态偏见是无形的，很多时候并不是西方记者故意黑中国，但可能片面陈述一些中性事实，让我国读者难以接受。

另外，小C发现数据库对很多新闻存在重复收录。这些文章被重复计算了多次，其平均值也会受到影响。

“对谁都是0.0”的媒体就是“理客中”吗？

至于该文“最健康的媒体应该保持一种对谁都是 0.0 的态度，平均太低了或者太高了都是个问题”的观点，乍一看很有道理，但却经不住细想。该文希望媒体“对谁都是0.0”，显然是误以为“0.0”就代表了新闻客观性，但其真实的意思是报道的“好事”和“坏事”各一半，如果媒体是社会的记录仪的话，那么说明这个国家基本处在了水深火热之中，肯定是东边刚修了一条铁路，西边就发生了一起谋杀。

一般媒体都热衷于报道负面新闻，因为其带来的流量大，造成的社会影响大，产生的经济效益多。事实上，长期的过度市场导向引发的信任危机和社会撕裂，在美国等国家已有突出表现，例如党派媒体一天到晚渲染对立党派的不好。原文提到的美、英等媒体对自己祖国有很多负面报道，就是这个道理。然而，这并不说明这些国家有那么多的“坏事”。

那么，为什么中国媒体对祖国的正面报道很多？答案很简单，第一，中国近些年来经济发展迅速、社会稳定和谐，人民群众在改革中的获益越来越多，社会氛围本就呈现积极向上为主的，这是事实：第二，中国主流媒体普遍信仰马克思主义新闻观，其使命是“围绕中心，服务大局”，何为大局？稳定繁荣就是中国当前的主体面貌，中国媒体向公众传达的就是这样一个客观的事实，而不会因为报道负面新闻吸引眼球就对其肆意夸大、连篇累牍，报道负面事件是为了在批评中促使我们的国家变得更美好，而不是用来喧宾夺主、自我否定的。

用大数据计算新闻偏见，可行吗？

大数据是近些年非常火的概念，什么东西一沾上这个词，仿佛就变得高深莫测、时髦前沿，甚至不容反驳了。但正如一些社会学家对大数据所获信息的评价：极端片面、漫步边际、支离破碎，导致其产生过无数的错误，却总是被人所忽视。一个典型的例子就是，2008年谷歌第一次开始预测流感，比美国疾病预防控制中心提前两礼拜预测到了流感的爆发。但是几年之后，谷歌的预测比实际情况高出了50%。这是由于媒体过于渲染了谷歌的成功，出于好奇目的而搜索相关关键词的人越来越多，从而导致了数据的扭曲。

那么用大数据解读新闻偏见呢？张天铎表示，每个人对于“褒贬”的定义是有出入的，这主要取决于研究者的所应用的词库和算法。事实上，没有绝对不好的指数，只有不严谨的结论，所以，解读数据的时候一定要做到联系算法。就目前而言，对于计算媒体偏见，训练完善的人工分析会比机器更可靠，毕竟机器解读语言的水平很有限，举例来说，“我谢谢你八辈儿祖宗”，电脑是理解不了这句话是用来骂人的。若真的要用电脑软件代替人工做分析，那最好取一个小样本，测试一下电脑分析跟手工分析的差距有多大。

最后要说明的是，数据不会说谎，但数据使用不当则会说谎。如果不去追问数据是怎么来的、怎么统计的、算法是怎么设计的，只是简单的看着数据就去发表结论，那么根本就没办法讨论问题了。

看过还想看

可能还想看

热点推荐