banner

用大数据计算新闻偏见,可行吗?

作者: 大数据观察来源: 大数据观察时间:2017-08-28 18:08:140

最近,一篇名为《哪国媒体最反华,直觉又错了!》的文章刷屏了笔者的朋友圈。该文称,利用大数据技术对几千万篇中外媒体报道进行分析后发现,美国、英国媒体对中国的评价总体为正面、且接近实现了新闻客观性,而中国媒体不仅是唯一一个把祖国评价得很高的媒体,更是对美国、日本、印度等国家充满了严重的媒体偏见。

说实话,一开始笔者也被这篇文章吓懵了,甚至还默默给它点了个赞。但没过多久,几个在外留学的朋友却跑来找我吐槽:“我们在国外明明每天都被低端黑啊,怎么一用大数据就成总体正面报道了?这个统计结果到底靠不靠谱?”

一言点醒梦中人,笔者不禁陷入沉思,数据确实不会说谎,但若是错误的数据、错误的方法呢?社会学家对“大数据崇拜”的批判由来已久,其是否真能展现完整真相?

对此,笔者对三位专业人士进行了采访,并再次检视了该文的数据库、指标计算、统计方法等。最后,三位专业人士和笔者得出的一致观点就是:该文利用大数据所得出的几条主要结论,基本站不住脚!

下面,笔者将以自己一个技术小白的视角,来为大家解释一下这个所谓的“大数据分析”到底是个什么。

《哪国媒体最反华,直觉又错了!》摘要

本节为该文摘要,比较了解的读者可跳过。

该文称,在GDELT数据网站上下载了近两年各国各网站的所有新闻,总共有几千万篇。同时,该网站为每一篇新闻标了一个sentiment index(褒贬指数),范围是在 -20 与 20 之间。褒贬指数越小,说明这个国家的媒体对另一个国家的负面报道多一些(有偏见);褒贬指数越大,说明这个国家的媒体对另一个国家的正面报道多一些。

随后,该文将中国媒体对他国的所有报道和他国媒体对中国的所有报道,做了个褒贬指数平均值,得出了所谓英美媒体“理客中”,中国媒体“最偏见”的结论。

然而,该文只讲了结论,并没有列出任何技术性的操作,所以,必须检视其数据库与计算方法。

该文章计算的结果,是媒体偏见吗?

该文的核心概念是“褒贬指数”,但很可惜,在美国某计算机公司就职的程序媛小C和中国人民大学社会学硕士孙广阳,在对该网站进行了数日研究之后,均没有找到这个sentiment index。

但是,数据库提供的另外一个指标,AvgTone(平均语气),却像极了该文所说的“褒贬指数”。数据库的操作说明对“平均语气”的解释是:该属性值是所有文章提及该事件时“语气”的平均值。分数范围从-100(极消极的)到+100(极积极的)。一般是从-10到+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和影响。在笔者询问了该文原作者到底是哪个指标后,原作者也表示“应该就是这个(AvgTone)”。

那么这个数值代表一篇报道对一个国家的褒贬吗?小C下载了最近一周美国对中国的数据和中国对美国的数据,发现了一些好玩的东西。

在美国对中国的语气中,得分最高的一篇新闻,是在讲中国庆祝新年;得分最低的一篇新闻,是在讲中国决定加重对经济犯罪的惩罚。在中国对美国的语气中,得分最高的一篇新闻,是在讲华人在美国一家博物馆庆祝新年;得分最低的一篇新闻,是在讲中国抓捕贪官。

很奇怪对不对?有的把正的讲反了,有的则少了一个主体。还有一个更奇怪的:一个中国对美国语气为-22.8的新闻,讲了美国俄亥俄州一名男子枪杀警犬、抢劫店铺,全程跟中国没有半毛钱关系,那为什么会被计算进来呢?笔者细细比对后发现,估计是系统把canton police(州/行政区警方)翻译成了广州警察……

所以说,这个算法,笔者真心不懂。当然,大数据极其杂乱,需要有很高的容错度,但即使抛开算法不谈,这个“平均语气”与所谓的褒贬还是有很大的差距的。比如,中国庆祝过年自然会出现庆祝、聚会、开心等比较喜庆的词汇,系统自然会把它们都当做积极语气,但这算是对一个国家的褒扬吗?自然不是的。

事实上,这个计算工具和指标根本不是在讲a国家的媒体对b国家报道的褒贬值,其实是各个国家各个媒体报道的a作为主体、b作为客体时的情感分析。

从对工具使用方法的说明中,我们看到,条件设置的是主动者(actor1)将事件(event)执行到被动者(actor2),是各个国家各个媒体报道的a对b的事件,而不是a国媒体对b国的报道。如果嫌这句话绕口,另一个简单的证据就是,如果一个人想了解中国媒体对美国的报道,自然要读人民日报、新华社通讯了,但当笔者选中中国对于美国时,出现的全部是英文报道,也就是说,a对b的数据里,根本不是a国的新闻,而是世界的各种英文新闻,然后a作为主语、b作为宾语出现而已。所以,这个数据和指标并不具备分析a国对b国态度的作用。

绝大部分数据来源是国外,只有小部分是国内媒体的英文报道,就可以说“中国媒体 最偏见 ”了吗?这个锅,我们不背。

“平均值”平均掉了哪些信息?

虽然GDELT没有给出它的计算方法(给了我也看不懂),但该文所做的“平均值”分析,却是有很大问题。

举个例子,有20篇报道讲中国好吃的很多,每篇得分1分,那么就是20分。后来,又有一篇文章把中国击毙恐怖分子说成了镇压民众,得了最低分-20分。两项加权,结果是0分!先诬陷你“屠杀平民”,再说点你家东西真好吃之类的话,就是公正客观了吗?显然不是。

佛罗里大学公共关系学博士张天铎表示,英美国家对华主要的媒体偏见不体现在所有报道中,而是集中在重要政治和外交议题的事实性定义上。这些议题占总量很小,但影响很深远。另外,正面的语气与否不能证明是否报道偏了,因为意识形态偏见是无形的,很多时候并不是西方记者故意黑中国,但可能片面陈述一些中性事实,让我国读者难以接受。

另外,小C发现数据库对很多新闻存在重复收录。这些文章被重复计算了多次,其平均值也会受到影响。

“对谁都是0.0”的媒体就是“理客中”吗?

至于该文“最健康的媒体应该保持一种 对谁都是 0.0 的态度,平均太低了或者太高了都是个问题”的观点,乍一看很有道理,但却经不住细想。该文希望媒体“对谁都是0.0”,显然是误以为“0.0”就代表了新闻客观性,但其真实的意思是报道的“好事”和“坏事”各一半,如果媒体是社会的记录仪的话,那么说明这个国家基本处在了水深火热之中,肯定是东边刚修了一条铁路,西边就发生了一起谋杀。

一般媒体都热衷于报道负面新闻,因为其带来的流量大,造成的社会影响大,产生的经济效益多。事实上,长期的过度市场导向引发的信任危机和社会撕裂,在美国等国家已有突出表现,例如党派媒体一天到晚渲染对立党派的不好。原文提到的美、英等媒体对自己祖国有很多负面报道,就是这个道理。然而,这并不说明这些国家有那么多的“坏事”。

那么,为什么中国媒体对祖国的正面报道很多?答案很简单,第一,中国近些年来经济发展迅速、社会稳定和谐,人民群众在改革中的获益越来越多,社会氛围本就呈现积极向上为主的,这是事实:第二,中国主流媒体普遍信仰马克思主义新闻观,其使命是“围绕中心,服务大局”,何为大局?稳定繁荣就是中国当前的主体面貌,中国媒体向公众传达的就是这样一个客观的事实,而不会因为报道负面新闻吸引眼球就对其肆意夸大、连篇累牍,报道负面事件是为了在批评中促使我们的国家变得更美好,而不是用来喧宾夺主、自我否定的。

用大数据计算新闻偏见,可行吗?

大数据是近些年非常火的概念,什么东西一沾上这个词,仿佛就变得高深莫测、时髦前沿,甚至不容反驳了。但正如一些社会学家对大数据所获信息的评价:极端片面、漫步边际、支离破碎,导致其产生过无数的错误,却总是被人所忽视。一个典型的例子就是,2008年谷歌第一次开始预测流感,比美国疾病预防控制中心提前两礼拜预测到了流感的爆发。但是几年之后,谷歌的预测比实际情况高出了50%。这是由于媒体过于渲染了谷歌的成功,出于好奇目的而搜索相关关键词的人越来越多,从而导致了数据的扭曲。

那么用大数据解读新闻偏见呢?张天铎表示,每个人对于“褒贬”的定义是有出入的,这主要取决于研究者的所应用的词库和算法。事实上,没有绝对不好的指数,只有不严谨的结论,所以,解读数据的时候一定要做到联系算法。就目前而言,对于计算媒体偏见,训练完善的人工分析会比机器更可靠,毕竟机器解读语言的水平很有限,举例来说,“我谢谢你八辈儿祖宗”,电脑是理解不了这句话是用来骂人的。若真的要用电脑软件代替人工做分析,那最好取一个小样本,测试一下电脑分析跟手工分析的差距有多大。

最后要说明的是,数据不会说谎,但数据使用不当则会说谎。如果不去追问数据是怎么来的、怎么统计的、算法是怎么设计的,只是简单的看着数据就去发表结论,那么根本就没办法讨论问题了。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限