行业资讯>大数据新闻>

专稿：大数据简史

作者: 大数据观察来源: 大数据观察时间:2017-08-17 10:01:370

36大数据专稿，原文作者：Bernard Marr，本文由36大数据翻译组：# include “cxuan.h”翻译，转载必须获得本站及

“大数据”作为一个术语的历史可能还很短暂，但是它所依赖的很多基础很久以前就建立了。

在我们今天认识的计算机被普及很久以前，学术中对于分析不断膨胀的知识体系的理念的建立是很普遍的。

我们不断增强的存储和分析信息能力的进步有些缓慢，这或许不太容易发现，然而上世纪末随着数字存储的发明和计算机网络的诞生，这种能力才进入了飞速发展的轨道。

在大数据逐渐成为主要趋势的今天，让我们简要回顾下大数据时代黎明前关于思考和创新的漫长历史吧。

你知道吗？大数据历史可以追溯到1887年

远古时代的数据

公元前18000年

最早关于人类记录和分析数据的例子是符木(ally sticks)。伊尚戈骨头(Ishango Bone) 是1960年在乌干达发现的被认为是最早的史前记录数据的证明之一。旧石器时代的部落人民在树枝或者骨头上刻下凹痕来记录日常的交易活动或物品供应.比较树枝和凹痕来进行基本的算术计算的方法使他们能够对一些事情进行预测，如食品将维持多久。

公元前2400年

第一个专门用来执行算术运算的工具是算盘，在巴比伦开始使用。历史上第一座图书馆大概也是在这个时期出现的，这也代表着对大量数据进行存储的首次尝试。

公元前300年-公元48年

或许亚历山大图书馆是古代最大的数据储存地了，这里50万卷的藏书几乎涵盖了当时我们学习的各个领域。不幸的是，公元48年这座图书馆被认为意外地遭到了罗马人的入侵。与大多数的神话故事相反，图书馆并未失去所有珍藏，一部分很重要的藏书被转移到了城市里的另一个建筑里，一些被人偷了然后散布在世界的各个角落。

公元100年-公200年

安提凯希拉(Antikythera)机器, 是最早被发现的机械计算机,可能由希腊的科学家们发明的。它的”CPU”由30个环环相扣的铜齿轮组成,被设计用来做占卜或者追踪奥林匹克比赛的周期.它很可能预示着早期机器设备的革新,但到目前为止仍然不得而知.

统计学的出现

1663年

在伦敦,约翰▪葛兰特(John Graunt)进行了第一次有记录的统计数据分析实验.他用记录下的当时肆虐欧洲的黑死病死亡人数信息,建立起了早期预警系统的理论.

1865年

“商业智能”这一术语由理查德▪弥勒▪文斯(Richard Millar Devens)在他的商业轶事百科中提出,描述了银行家亨利▪福尼斯(Henry Furnese)怎样用结构化的方式收集和分析有关竞争对手的商业活动来取得竞争优势.这被认为是第一次将数据分析用于商业目的的研究.

1880年

美国人口普查局有个问题，预计将花费8年的时间去捣弄1880年收集到的人口普查数据，而1890年的人口普查数据的处理将消耗超过10年的时间，这意味着到1900年人口普查的时候，人口普查局也无法看到那些过时的人口数据的结果。在1881年人口普查局聘用了一位年轻的工程师赫尔曼·霍尔瑞斯(Herman Hollerith),发明了著名的霍勒瑞斯制表机.穿孔卡片的使用让他将需要耗费10年的工作缩短为3个月,这使他在历史上取得了现代自动化计算之父的历史地位.他成立的公司就是日后著名的IBM.

早期的现代数据存储

1926年

发明家尼古拉特斯拉(Nikola Tesla)在接受高力杂志(Colliers magazine)采访时说道:”当无线电技术被完美的应用的时候,全球将变成一个巨大的大脑,实际上就是这样,所有的东西成为了实时的有节奏的整体的一部分,我们可以实现它,使用的工具将非常简单,相当于我们现在的手机.人们可以将它放在口袋里随身携带.”

1928年

波弗劳姆(Fritz Pfleumer),一位德国奥地利混血的工程师,发明了一种用磁带来存储信息的方法.他发明的这个原理今天依然在使用,绝大部分的数据就是存储在有磁性介质的电脑硬盘上.

1944年

弗里蒙特瑞德(Fremont Rider), 美国康乃迪克州卫斯理大学的图书管理员, 发表了题为学者和学术图书馆的未来(The Scholar and the Future of the Research Library)的论文。

他注意到在早期尝试量化产生的海量数据的时候，为了储存所有学术和普通工作所产生的数据，美国的图书馆将不得不每16年将他们的容量翻倍。这使他推测耶鲁大学图书馆到2040年的时候将包含2亿册图书，遍布超过6000英里的书架。

商业智能的起源

1958年

IBM的研究员汉斯彼得卢恩(Hans Peter Luhn)将商业智能定义为“通过领会事实间相互关系的能力来引导我们的行为达到一个渴望的目标”。

1962年

迈出的第一步是在语音识别领域，1962年的世界博览会上IBM的工程师威廉姆(William C Dersch)展示了一台鞋盒式的机器.它可以将数字和16词的英文翻译成数字信息.

1964年

新政治家杂志(New Statesman)上的一篇文章指出处理不断增长的海量数据信息将不再是困难的。

海量数据中心的开端

1965年

美国政府计划在世界首个数据中心的磁盘上存储7.42亿的纳税申报单和1.75亿的指纹信息。

1970年

IBM的数学家埃德加(Edgar F Codd)展示了他的关系型数据库的模型框架.这个模型提出的框架在现代的很多数据库中使用,把信息存储在层次化的结构中使得每一个知道自己想找什么的人都可以获取需要的信息.从电脑存储中获得数据之前通常都要请来一位专家.

1976年

商业上使用MRP系统变得越来越普遍,这代表着使用电脑加速每一天的商业运作效率第一次成为主流.直到现在,大多数人只是在研究调查或者学术文献中看到过.

1989年

也许是第一次像今天使用大数据那样使用”大数据”这个术语.国际畅销书作者埃里克·拉森(Erik Larson)为哈珀斯杂志写了一篇他推测是首个收到垃圾邮件的文章.他写到:”大数据的守护者说他们这么做是为了消费者的利益.但是有一种使用数据为了其他目的和意图的方式.”

另外,随着为分析商业及运算性能开发的新兴软件和系统的普及,上世纪50年代已经很流行的概念”商业智能”看到了未来的大潮.

互联网的推动

1991年

计算机科学家蒂姆伯纳斯李宣告了我们今天所熟知的万维网的诞生.在一个网站上,他制定了世界网络的协议书,使互联网的数据联通起来,让任何人可以在任何地方进行通信.

1996年

根据 R J T Morris 和 B J Truskowski 在2003年出版的图书存储系统的革命中, 提出了数字存储比纸质存储更划算的观点。

1997年

迈克来斯克(Michael Lesk)在他的论文世界上有多少信息? 理论地给出12,000PB这一可能不是很合理的猜想。他也在早期的发展中指出,网络数据正以每年10倍的速度增长。他说任何人从未看过其中的大部分数据,所以这个变化很难被察觉。

这一年,谷歌搜索也首次亮相,至少在未来的20年,它的名字将成为网络数据搜索的代名词。

大数据初探

1999年

两年后大数据这一术语出现在美国计算机协会发表的可视化实时探索G比特数据集中.倾向于存储海量数据而无法充分对他们进行分析再一次成为遗憾。论文接着引用了信息处理先驱理查德·卫斯里·汉明(Richard W Hamming)的话:”信息处理的目的是洞察内在的关系,而不是表面的数字。”

“物联网”这一术语可能也在这个时候被首次使用,意味着网络上不断增长的设备有可能在没有中间人的前提下相互进行通信。它在无线射频技术先驱凯文·艾什顿(Kevin Ashton)给保洁公司做的演讲中被用来作为标题。

2000年

彼得莱曼(Peter Lyman)和哈尔•范里安(现在是谷歌首席经济学家)在他们的题为有多少信息?的文章中首次尝试计算世界上有多少数字信息以及增长率。他们总结道：世界上每年印刷品，电影，光学和磁性等内容将需要大概15亿GB来存储。这相当于地球上每个人都占有250MB的信息。

2001年

高德纳公司分析师道格·莱尼(Doug Laney)在他的论文3D 数据管理:控制好数据容量,处理速度和多样性中定义了将被普遍认同的三个大数据特征.

在这一年,软件与信息产业协会发表的战略背景:软件即服务的文章中也出现了一个新的术语”软件即服务”,它是一种许多基于云计算应用的概念基础,而今天已经是行业标准了.

网络2.0时代助涨了数据大爆发

2005年

评论员说我们正在见证网络2.0的诞生，大多数的网络内容将由用户产生而不是网络服务提供商给出的。通过整合HTML样式的网页和基于SQL的后台数据库技术实现了这一目标。一年前出现的Facebook已经有550万人通过它来上传自己的数据并与朋友分享。

Hadoop也在这一年诞生，它是专门为存储及分析大数据的开源框架。它的灵活性使得管理我们不断产生和采集的非结构化数据(语音，视频，文档等)的时候特别有用。

‘大数据’在今天大量涌现

2007年

连线杂志在文章理论的终结:海量数据让科学模型变得过时中将大数据的概念引进大众的视野。

2008年

据有多少信息?2010年报告中提到,世界上的服务器处理了9.57ZB(95700亿GB)的数据，这相当于每个人每天产生12G的数据量。在全球产品和信息的传播中, 在这一年大概产生了14.7艾字节的信息量。

2009年

麦肯锡全球研究所在一篇报告大数据:下一个创新、竞争、生产力的前沿中指出美国平均每一家拥有1000名以上雇员的公司都存储了超过200TB的数据。

2010年

Google执行主席埃里克·施密特(Eric Schmidt)在会议上说现在两天所产生的数据量是人类文明开始到2003年的总和。

2011年

麦肯锡公司报告指出到2018年，美国将面临140000到190000名数据科学家的人才缺口，该报告也指出在实现大数据的所有价值之前需要解决一些问题，包括个人隐私，安全，知识产权等。

2014年

移动终端的增长第一次指出越来越多的人通过移动设备来获取数字信息，相比之前的在办公室或者家用电脑上。美国通用和埃森哲咨询公司合作调查了88%的企业主管后得出大数据分析师是企业中急需的人才。

总结

我们需要知道的是大数据并不是一个新的或者孤立的现象，而是人类长期采集和使用数据的结果。就像其他关键性的发展如数据存储，数据处理，因特网一样，大数据将更进一步地改变我们社会和企业的运作。同时它也将为许多变革奠定基础。

原文标题：Big Data: A Brief(ish) History Everyone Should Read

看过还想看

可能还想看

热点推荐