Jeffery Ullman教授：大数据不是噱头，值得投入我们的力量

作者: 大数据观察来源: 大数据观察时间:2017-04-23 17:04:580

Jeffrey David Ullman是一位计算机科学家，现任斯坦福大学的教授。他编写的关于编译器的教科书（各种版本非常流行被称为“龙书”）、关于计算理论的书（被称为“灰姑娘书”），以及数据结构和数据库的相关书籍都被视为是业界的规范。1995年，他成为美国计算机协会（ACM）的院士，2000年被授予 Knuth奖。他还和John Hopcroft一起获得2010年IEEE颁发的冯诺依曼奖章。 Jeffrey David Ullman在大数据领域方面著有《大数据：互联网大规模数据挖掘与分布式处理》一书，是一本技术型的大数据图书。

记者：“大数据”现在在中国炒得很热，在各种技术会议、书、讨论中都有空前得热度。你认为“大规模数据挖掘”（massive dataset mining)在其中的角色是什么？

Jeffrey David Ullman：我认为“大规模数据挖掘”根本上和“大数据”是一个意思。但这并不意味着MMDS(《大数据》）这本书包含了关于大数据的一切。我和Anand Rajaraman博士对我们所挑选的算法可谓是精挑细选。具体说来，就是我们避开了现在被称作“机器学习”的部分。现在有一些非常强大的研究者，组成了他们称为“机器学习”的社区，虽然他们所研究的算法——包括聚合和梯度下降——在“机器学习”开始火热的很长时间以前，就已经很出名而且被很多人认真地研究过了。实际上，“机器学习”就是给一些特定算法加上的一个标签，而且，也存在其他一些算法，在有效分析数据方面，这些算法的重要性有过之而无不及。其中最为突出的例子就是“局部敏感哈希”（LSH），它并不被认为属于机器学习，也不是由“机器学习”研究者发明的。我在全世界各地演讲，倾听人们关于计算挑战的讨论，我认为很多人普遍缺失对于LSH技术的知识。所以我们决定在《大数据》这本书中给予LSH以足够的重视。

记者：作为一名学者同时也是教育者，您是如何应对“大数据”热的？您为什么要持续更新《大数据》这本书，又为什么把它免费分享给大家？

Jeffrey David Ullman：“大数据”说的是一组真正意义上重要而且有挑战性的问题。它和很多现在流行的热门词有很大不同，那些概念流行了数年之后就会消失，什么也留不下，而我认为大数据算法的研究值得调动一切可以调动的力量。但是接下来好像是两个问题，一个是为什么要对这本书持续更新，另一个是它为什么是免费的。

首先，我为什么要持续更新。几年前，我们很幸运地邀请到Jure Leskovec加入到斯坦福大学，现在他已经撑起了数据挖掘这门课的很大部分。Jure在一定程度上和我与Anand的观点有所不同，他对机器学习算法更感兴趣，他的个人研究包括了社交网络及其相关的图问题。所以现在，Jure作为另一位作者加入到这本书中来，在书中另外开辟了一个章节，关于社交网络分析的算法。在不远的未来，我们打算加入大规模机器学习算法，以及大规模降维算法。另外，我在Google、斯坦福，以及其他地方从事的个人研究，让我加深了对于Map-Reduce算法的理解。所以我最近把这些知识融入到第二章中去了。

然后是，这本书为什么是免费的。有几个原因。其中最重要的原因就是，我和Anand都不需要通过出版这本书得到的那点版税。剑桥大学出版社愿意在有免费电子版的情况下出版此书，我们感到很高兴，他们以这种方式出版也不是第一次了。他们的编辑David Tranah告诉我，他们也希望能通过书来赚钱，但是几百年来，他们认识到，作为一家非盈利性的大学出版社，他们的首要任务是要传播知识。

于是这也就引发了第二个原因：盈利性的出版社变得越来越贪婪，他们在美国把书价抬得极高，可以说比那些书应有的价值高出很多。所以，没有人买书，或者买了看完了就要再卖掉，所以书的整体销量比七八十年代的时候还要少。所以，与其通过盈利性出版社赚取一点小钱，作者们越来越有理由选择让自己的书免费，让更多的人读到它。举例来说，《大数据》这本书每年会被下载25万次左右。这比我所有出版过的纸版书都要多十倍以上。对于Anand和我的工作来说，没有比这更令人欣慰的了。

其实对于这本书的免费，还有一个真实原因，那就是非法文件分享系统已经完全不尊重我们的知识产权了，所以买我们书的人其实都是诚实的人，他们不愿意和盗版同流合污。而这些人的钱，我们是不愿意拿的。

记者：Map-Reduce框架更主要用于离线处理，如果在线处理有什么计算框架值得推荐？除了Map-Reduce计算框架外，还有什么大规模数据挖掘的框架值得关注？

Jeffrey David Ullman：我认为“在线处理”有两个意思。第一个是事务处理。数据挖掘总体来说不需要事务处理，所以“大数据”应用也不需要事务处理。第二个是特定查询，你键入你想到的任何查询，然后在几秒钟后检查结果，如果不满意就重新键入查询。大数据应用需要较长的执行时间，所以不太适合特定查询。有一些新系统，在这方面超过了Map-Reduce，在真正的大数据面前只需要几秒钟就能给查询以反馈。你可以看一看Dremel 系统 http://research.google.com/pubs/pub36632.html，这个系统据我理解，其实是模仿了一个开源系统，叫做Dream。

记者：你认为美国大学中存在一种黑客文化吗？这样的文化在学业上产生了什么影响？

Jeffrey David Ullman：对于黑客有几种解读。第一种，是善于攻入其他人电脑系统，窃取数据的人。从这种意义上说，很少有学生参与这样的活动。

另外一种意思是具有编程和科技知识的人。我们在斯坦福会经常会看见这样的人，但是也不是特别多，软件学院的最好的学生也有自己的兴趣。斯坦福甚至不允许学生们只关注一门学科！要在斯坦福取得学士学位，你的学分只能有三分之一是来自于本专业的。这在美国学校中是比较普遍的现象。

但是斯坦福的文化中确实有与众不同的成分，那就是大家都能开公司。甚至比应该鼓励的数量还要多，也有很多不成功的例子。但是令人惊奇的是很多学生毕业之后都不想去已经存在的公司上班，他们都想开创自己的公司。这里有几门课专门讲如何“创业”，这样的文化确实在斯坦福校园里薪火相传。

记者：从一位教师的角度上看，你觉得你班上的中国学生怎么样？你对他们有什么建议吗？

Jeffrey David Ullman：你可能觉得这件事很有趣，那就是我教授的班级里通常有一半学生是中国人。他们有很多都是在美国出生的硕士学生，但是也有很多是从中国，以及其他亚洲地区来的。我对他们没什么建议，我对所有学生都没有什么建议。

第一，相信你自己，而不是长辈；放眼望去，有多少伟大的计算机公司（微软, Oracle, 苹果, Google, Yahoo!, 亚马逊, Facebook）是由年轻人创立的。第二，不要害怕失败。如果你失败的次数没有成功的多的话，说明你想搞定的问题根本就不值得解决。

记者：您认为面向数据集的操作系统应该具备什么特征？

Jeffrey David Ullman：我没看出来数据挖掘在操作系统上也是个问题。也许选取合适的数据库管理系统是个问题，比如说传统的关系型系统和”no-SQL”相比较。我确实注意到SQL并没有消失，人们正努力把它融入不同平台上以管理大规模数据。

看过还想看

可能还想看

热点推荐