banner

在信息分发上,人类会战胜机器吗?

作者: afenxi来源: afenxi时间:2017-06-16 09:35:200

摘要:没有一种筛选和推荐系统让我们绝对满意,因为它减少了我们选择的力量和意义。

在信息分发上,人类会战胜机器吗?-数据分析网

知乎上有个问题:有什么事让你觉得科技远没有我们想象的发达? 这个问题目前已经有1600个左右回答,高票答案大多从宇宙、科学、生死等大的方面谈。这些答案很有意思,可于我而言它们都太远。私以为,阅读效率低下才是这个时代最大的难题。

我们已经有非常多媒介:报纸、广播、电视和网络。我们已经可以大谈特谈数据挖掘、机器学习和协同过滤。可我们每天依然会看到很多垃圾信息,这包括本身就毫无营养的和对我无用的。当我们想找资料时,我们的第一反应是打开Google,输入关键词,在浩瀚的信息海洋中寻找。有价值的信息,并不会自动蹦到我们面前。

可以说,现在市面上出现的所有资讯、阅读、甚至部分社交软件,都在解决信息分拣的问题。目前也已有不少有价值的探索。对此,我有三个思考:

机器推荐的困惑

首次提出「个性化推荐」的今日头条,被认为是「颠覆了传统的内容分发模式」。媒体人和互联网人都知道,这不是一个新闻资讯软件,而是一个搜索引擎。此后,不仅出现天天快报、一点资讯等完全依靠机器算法的资讯软件,传统的门户客户端也出现「喜欢」和「不感兴趣」按钮,向个性化推荐进军。

在鼓吹机器学习之前,需要弄清楚一个问题:智能推荐是否真的提高了阅读效率?

我们常说的「阅读效率」,一般与阅读速度和理解程度有关。而我这里的定义很简单,即:单位时间内获取的有效信息量。它就是一个除法,分子是有效信息,分母是所有信息。范围是你所看到的。

在信息分发上,人类会战胜机器吗?-数据分析网

机器根据你的搜索、浏览、点赞和评论记录,推算你的喜好,并且推送相应类目的内容。这听起来很美好,可它忽略了一个维度——质量。评价一篇文章的好坏,这件事对大多数有思想的成年人来说,都没那么容易。所以有个感觉是:微信订阅号推送的内容,我可能没那么喜欢,但绝大多数是有价值的。今日头条机器推荐的内容,都让人有点进去的欲望,但往往没办法读完。

换句话说,机器推荐解决了「客制化」问题,却没解决「克制化」问题。每秒钟刷新一次,都有不同的新内容产生。很多人沉迷于今日头条的刷新按钮,就像沉迷于微信朋友圈的小红点一样。浏览过量无价值却感兴趣的文章,无异于吸食鸦片。

所以,人们应该去找感兴趣的内容,但不是从未经筛选的信息海洋中去找。我觉得微信订阅号上的内容质量高,是因为这些号是我一个个筛选出来的,对我而言是可靠的信源。如果有一款软件,能从我订阅的这些信息中,筛选出我感兴趣的内容,那就好了。

然而现在并没有这样的软件。因为这相当于让人自己建立信息库,它有两个问题。

一是门槛高。虽然我们一直在说信息过载,但真正订阅几百个微信公众号的人并没那么多。互联网提供海量的信息,同时也赋予人自由和选择权。很多人被动接受了前者,却自动忽略了后者。正因为大部分人习惯于「喂食」,所以Google Reader 必须宣布死亡。

二是信息茧房。如果说今日头条精确的推荐算法会带来这个问题,那么从自建信息库中筛选内容,会让这个问题更明显。信息茧房让人们只看见想看到的,听见想听到的。阅读效率(以兴趣为维度)提升的代价是整个社会沟通效率的降低。

发现兴趣的清单式阅读

我们正迎来一个清单式阅读的时代。解决机器推荐质量低、内容局限的方法,目前只能靠人工干预,即手动建立清单。

抛开机器和人工,排除中国历史上某些特殊年代,我们粗略梳理一下自古以来信息呈现的方式:

古代:信息零散地分布在各处,案头上的书简,情人间的信件,街头巷尾的广告,杂七杂八的没有分类。

近代到互联网早期:先是报刊杂志成为人们接收信息的主要来源,内容被贴上时政、娱乐等标签,聚合在固定位置。接着出现的电视机、收音机,也有类似的频道划分。Web1.0时代的雅虎导航,也是将信息人工分成若干部分,聚合在一个网页中。

最后是我们现在所处的时代:信息筛选与分类成为当今社会最大的问题。传统媒体信息冗杂且同质化严重,自媒体某种程度上代替受众进行了一次信息筛选。如今声音很响的「付费阅读」,本质上也是种筛选机制。

有两个趋势:

一是信息呈现的方式发生倒转,经历「点—面—点」的过程。第一个「点」的意思是「不多的信息四处分布」,第二个「点」的意思是「精筛的信息有规律地分布」。

二是人们的自由度越来越高,我们不再被动接受频道划分,而是主动寻找喜欢的内容。

「贴标签」的划分,不符合精筛的要求,所以有了「清单式」的划分。「清单」顾名思义就是推荐的信息列表,它也可以是贴标签的,但更多的是对订阅号的二次整理,是细分的主题阅读。

比如下图分别为读读日报、即刻和简书的清单:

在信息分发上,人类会战胜机器吗?-数据分析网

最初的时政、科技、情感等板块正在被「选·美 | 每天一点大选」、「Netfix进入中国进展」、「我想到的爱情是什么样子?」这些板块替代。如果说这是「内容颗粒度变细」的体现,未免有些不准确。因为诸如「一觉醒来世界发生了什么」这种话题,显然比任何一个频道的范围都广。

如果把所有信息比作一个大蛋糕,「贴标签」就像一横一竖的规则切法,「清单」就像从内部划出多条纹路的,不规则切法。这种切法目前只能靠人工,因为它需要感情注入,需要分析和挖掘人的需求。准确说来,它更大的价值在于「预测需求」。

现在的机器算法,是基于用户的使用数据,从已有的信息池中翻找相似的内容,推荐给用户。而列清单,则是人先从多个维度考虑,给用户喜欢的某类信息建一个新池,以后再通过机器向里面注水。我们发现其中起关键作用的还是分类的人。这会比较麻烦,但信噪比也会相应提高。

而且,一个别出新意的清单,会让用户产生「原来我爱的是这种」的惊喜感。「满足兴趣」和「发现兴趣」是两个级别。

机器猫的万能口袋

有人会说:这和杂志专栏、早期的RSS订阅也没太大不同,就是栏目多了,信息更新快了。的确如此,但最大的不同是:「信息」的含义更丰富了。

「清单」有多少含义,「信息」就有多少含义。我们发现越来越多平台在做清单,不只是内容聚合应用。网易云音乐最让用户激动的两个功能是歌单和推荐,有些歌单非常神奇地能适应你某一刻的心情。

在信息分发上,人类会战胜机器吗?-数据分析网

酷安的应用集

「清单」是用来省时间的,所以人们很希望这种东西能再多一些。最好每个领域都有,等需要用的时候不用费力找。几乎每款非工具应用都必备一个「收藏」功能,为什么不能把这些内容汇聚到一起?印象笔记、Pocket、360doc等这类专门保存网页信息的工具,在帮我们完成这个任务。但还有个烦心之处是:为什么我要手动更新?

「即刻」正在解决这个问题。事实上它的卖点就在一个「杂」字,很多非资讯的内容都会以清单的形式呈现。比如「最新低价二手耳机卖贴」、「上海餐馆与美食推荐」、「这些微博的评论更好看」等。类似ifttt的提醒类清单也成为一个大类。

这些让人眼前一亮的清单,全部由人手动建立,内容更新也有很多人工干预。而Google兴起,雅虎衰落表明,机器战胜人工是必然。所以UGC清单不是重点,重点是让机器聪明到可以个性化生成清单。

不过生成再多牛逼清单,它们也只能解决「每天看到很多垃圾信息」的问题,依然无法让「有用的信息立刻出现在眼前」。

阅读目的不同,导致现在「浏览信息」和「搜集信息」两个工作是分开的。机器可以推算我平时的阅读兴趣,为什么不能感知到我此刻在想什么,需要什么信息呢?也许有一天,每个人都有一个机器猫的万能口袋,随手一掏就正好是自己需要的资料。筛选信息这些繁琐的工作都交给机器,人类可以省下大把时间去做有创造力的事。

社会会因此大踏步前进吗?或许会。但事情没那么简单。一部分信息,如火车时刻表、录取分数线等是确定的,唯一的。这部分信息即时获取是没问题的。另一部分信息,你需要用它来了解一件事的全貌,去做决策。这部分信息的筛选权如果完全给机器,可能出现两个结果:一是漏斗孔很大,你还得再筛一遍;二是漏斗孔很小,你只见树木不见森林,相当于机器代替你思考。

这就陷入了KK所说的「满意悖论」:没有一种筛选和推荐系统让我们绝对满意,因为它减少了我们选择的力量和意义。

信息分发还有很长的路要走,机器将以何种姿势战胜人工,我很期待。

作者:王雅文,-1岁的互联网人,目前在今日头条创作空间打工。个人微信:wywhbs,伪公号:ToutiaoSpace

来源:虎嗅网

链接:http://www.huxiu.com/article/158795/1.html

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限