banner

Jeffery Ullman教授:大数据不是噱头,值得投入我们的力量

作者: 大数据观察来源: 大数据观察时间:2017-04-23 17:04:580

Jeffrey David Ullman是一位计算机科学家,现任斯坦福大学的教授。他编写的关于编译器的教科书(各种版本非常流行被称为“龙书”)、关于计算理论的书(被称为“灰姑娘书”),以及数据结构和数据库的相关书籍都被视为是业界的规范。1995年,他成为美国计算机协会(ACM)的院士,2000年被授予 Knuth奖。他还和John Hopcroft一起获得2010年IEEE颁发的冯诺依曼奖章。 Jeffrey David Ullman在大数据领域方面著有《大数据:互联网大规模数据挖掘与分布式处理》一书,是一本技术型的大数据图书。

记者:“大数据”现在在中国炒得很热,在各种技术会议、书、讨论中都有空前得热度。你认为“大规模数据挖掘”(massive dataset mining)在其中的角色是什么?

Jeffrey David Ullman:我认为“大规模数据挖掘”根本上和“大数据”是一个意思。但这并不意味着MMDS(《大数据》)这本书包含了关于大数据的一切。我和Anand Rajaraman博士对我们所挑选的算法可谓是精挑细选。具体说来,就是我们避开了现在被称作“机器学习”的部分。现在有一些非常强大的研究者,组成了他们称为“机器学习”的社区,虽然他们所研究的算法——包括聚合和梯度下降——在“机器学习”开始火热的很长时间以前,就已经很出名而且被很多人认真地研究过了。实际上,“机器学习”就是给一些特定算法加上的一个标签,而且,也存在其他一些算法,在有效分析数据方面,这些算法的重要性有过之而无不及。其中最为突出的例子就是“局部敏感哈希”(LSH),它并不被认为属于机器学习,也不是由“机器学习”研究者发明的。我在全世界各地演讲,倾听人们关于计算挑战的讨论,我认为很多人普遍缺失对于LSH技术的知识。所以我们决定在《大数据》这本书中给予LSH以足够的重视。

记者:作为一名学者同时也是教育者,您是如何应对“大数据”热的?您为什么要持续更新《大数据》这本书,又为什么把它免费分享给大家?

Jeffrey David Ullman:“大数据”说的是一组真正意义上重要而且有挑战性的问题。它和很多现在流行的热门词有很大不同,那些概念流行了数年之后就会消失,什么也留不下,而我认为大数据算法的研究值得调动一切可以调动的力量。但是接下来好像是两个问题,一个是为什么要对这本书持续更新,另一个是它为什么是免费的。

首先,我为什么要持续更新。几年前,我们很幸运地邀请到Jure Leskovec加入到斯坦福大学,现在他已经撑起了数据挖掘这门课的很大部分。Jure在一定程度上和我与Anand的观点有所不同,他对机器学习算法更感兴趣,他的个人研究包括了社交网络及其相关的图问题。所以现在,Jure作为另一位作者加入到这本书中来,在书中另外开辟了一个章节,关于社交网络分析的算法。在不远的未来,我们打算加入大规模机器学习算法,以及大规模降维算法。另外,我在Google、斯坦福,以及其他地方从事的个人研究,让我加深了对于Map-Reduce算法的理解。所以我最近把这些知识融入到第二章中去了。

然后是,这本书为什么是免费的。有几个原因。其中最重要的原因就是,我和Anand都不需要通过出版这本书得到的那点版税。剑桥大学出版社愿意在有免费电子版的情况下出版此书,我们感到很高兴,他们以这种方式出版也不是第一次了。他们的编辑David Tranah告诉我,他们也希望能通过书来赚钱,但是几百年来,他们认识到,作为一家非盈利性的大学出版社,他们的首要任务是要传播知识。

于是这也就引发了第二个原因:盈利性的出版社变得越来越贪婪,他们在美国把书价抬得极高,可以说比那些书应有的价值高出很多。所以,没有人买书,或者买了看完了就要再卖掉,所以书的整体销量比七八十年代的时候还要少。所以,与其通过盈利性出版社赚取一点小钱,作者们越来越有理由选择让自己的书免费,让更多的人读到它。举例来说,《大数据》这本书每年会被下载25万次左右。这比我所有出版过的纸版书都要多十倍以上。对于Anand和我的工作来说,没有比这更令人欣慰的了。

其实对于这本书的免费,还有一个真实原因,那就是非法文件分享系统已经完全不尊重我们的知识产权了,所以买我们书的人其实都是诚实的人,他们不愿意和盗版同流合污。而这些人的钱,我们是不愿意拿的。

记者:Map-Reduce框架更主要用于离线处理,如果在线处理有什么计算框架值得推荐?除了Map-Reduce计算框架外,还有什么大规模数据挖掘的框架值得关注?

Jeffrey David Ullman:我认为“在线处理”有两个意思。第一个是事务处理。数据挖掘总体来说不需要事务处理,所以“大数据”应用也不需要事务处理。第二个是特定查询,你键入你想到的任 何查询,然后在几秒钟后检查结果,如果不满意就重新键入查询。大数据应用需要较长的执行时间,所以不太适合特定查询。有一些新系统,在这方面超过了Map-Reduce,在真正的大数据面前只需要几秒钟就能给查询以反馈。你可以看一看Dremel 系统 http://research.google.com/pubs/pub36632.html,这个系统据我理解,其实是模仿了一个开源系统,叫做Dream。

记者:你认为美国大学中存在一种黑客文化吗?这样的文化在学业上产生了什么影响?

Jeffrey David Ullman:对于黑客有几种解读。第一种,是善于攻入其他人电脑系统,窃取数据的人。从这种意义上说,很少有学生参与这样的活动。

另外一种意思是具有编程和科技知识的人。我们在斯坦福会经常会看见这样的人,但是也不是特别多,软件学院的最好的学生也有自己的兴趣。斯坦福甚至不允许学生们只关注一门学科!要在斯坦福取得学士学位,你的学分只能有三分之一是来自于本专业的。这在美国学校中是比较普遍的现象。

但是斯坦福的文化中确实有与众不同的成分,那就是大家都能开公司。甚至比应该鼓励的数量还要多,也有很多不成功的例子。但是令人惊奇的是很多学生毕业之后都不想去已经存在的公司上班,他们都想开创自己的公司。这里有几门课专门讲如何“创业”,这样的文化确实在斯坦福校园里薪火相传。

记者:从一位教师的角度上看,你觉得你班上的中国学生怎么样?你对他们有什么建议吗?

Jeffrey David Ullman:你可能觉得这件事很有趣,那就是我教授的班级里通常有一半学生是中国人。他们有很多都是在美国出生的硕士学生,但是也有很多是从中国,以及其他亚洲地区来的。我对他们没什么建议,我对所有学生都没有什么建议。

第一,相信你自己,而不是长辈;放眼望去,有多少伟大的计算机公司(微软, Oracle, 苹果, Google, Yahoo!, 亚马逊, Facebook)是由年轻人创立的。第二,不要害怕失败。如果你失败的次数没有成功的多的话,说明你想搞定的问题根本就不值得解决。

记者:您认为面向数据集的操作系统应该具备什么特征?

Jeffrey David Ullman:我没看出来数据挖掘在操作系统上也是个问题。也许选取合适的数据库管理系统是个问题,比如说传统的关系型系统和”no-SQL”相比较。我确实注意到SQL并没有消失,人们正努力把它融入不同平台上以管理大规模数据。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限