banner

用数字读懂一切 大数据的世界

作者: 大数据观察来源: 大数据观察时间:2017-08-09 11:21:050

      自20世纪90年代初以来,数字技术已从根本上改变了我们的生活方式。如今,我们即将开始全面转型——将所有以模拟形式记录的人类知识,转换为数字形式。《未来之窗》带您一起回首往昔,畅想未来。

巴伐利亚州立图书馆的藏书,正在被扫描并上传到互联网。

      楚泽(Zuse)、欧洲核子研究中心(CERN)和扎克伯格(Zuckerberg)——这三个名字标志着数字革命进程中的重要里程碑。 早在1941年,Konrad Zuse在柏林研制出了世界上第一台可以正常工作的计算机。他称这台外形庞大的数字计算机器为“Zuse Z3”。1991年,就职于瑞士欧洲核子研究中心的Tim Berners-Lee开发的万维网,向全球公众开放。Web技术进一步变革了人们的通信方式,为谷歌、亚马逊以及不计其数的其他企业,铺平了道路。后 来,2004年,Mark Zuckerberg创建了名为脸书(Facebook)的社交网络。如今,得益于脸书及类似网络,近20亿人获得了数字身份。

      计算机、Web和脸书,都基于数字技术。数字化的含义,就是将模拟信息,如文本、声音、图像和视频等,转换为易于存储的、由大量零和一组成的二进制代码。 一经创造,这样的数字项就能被无限量地复制,而质量丝毫不受影响,并且可以通过互联网,转瞬间传遍全球。数字技术为企业创造了全新的销售渠道类型,但它也 带来了新的问题,如违法拷贝数据。始于20世纪90年代的互联网热潮,掀起了一场前所未有的数字化浪潮。1993年,在全球范围内,只有大约3%的信息以 数字形式存储,但到2007年,这个比例已经飙升至94%。而且,这一趋势愈演愈烈,每天都有大量新的数据被数字化。

      数字世界最重要的先驱之一是德国发明家Rudolf Hell,他被誉为“图形行业的爱迪生”,曾被授予“德意志联邦共和国大十字勋章(Grand Merit Cross)”,并且曾荣获“古腾堡大奖(Gutenberg Prize)”和“魏纳奖(Werner-von-Siemens-Ring)”。Hell是公认的传真机和扫描机之父。1980年,他将突破性的 Chromacom数字图像处理系统商业化。20世纪80年代初期,当时还是西门子子 公司的HELL公司,受雇于梵蒂冈图书馆,扫描并以数字形式复制珍贵典籍,以便向公众开放阅读。20世纪90年代,数字化进程变得更加广泛,也更具系统 性。譬如,1990年,西门子利多富公司为莫斯科的克里姆林宫博物馆安装了一套数字处理系统,有史以来第一次,以数字形式为俄罗斯沙皇的全部艺术藏品编目 录。然后,将所生成的数字图像和信息,记录并分类保存到图像数据库中。

      扫描半开的书籍。如今,许多机构都想为其所拥有的全部模拟信息,制作数字拷贝。在这方面,坐落于慕尼黑的巴伐利亚州立图书馆堪称典范,其 数字化中心拥有各式各样的设备,在德国首屈一指。巴伐利亚州立图书馆的副馆长Klaus Ceynowa说:“我们使用了26套不同的扫描系统,包括4台每小时能够处理最多2000页的全自动扫描机器人。我们有两名操作人员,每人看管两台机器人。这个系统不止是速度快,为了保护书籍,书籍只需翻开60度。该系统的扫描棱镜就可插入半开的书页之间。它能清楚无误地读取页面内容,然后翻页,继续执行扫描。”

巴伐利亚州立图书馆的全部藏书(左图)正在被转换为数字形式。目前,已有一款应用程序,可用于阅读其最珍贵的文化宝藏。

      自2007年起,巴伐利亚州立图书馆一直在与谷歌公司合作开展“谷歌数字图书馆”项目,通过这个项目,巴伐利亚州立图书馆的100万册藏书,将实现数字化 并放到互联网上供公众阅读。其所涉及的书籍,均成书于1601年至1874年期间,不再受版权保护。Ceynowa解释道:“每个星期,经谷歌在其位于德 国的扫描中心将之转换为数字形式后,我们要发布大约5000册图书。谷歌承担扫描费用,并将数字拷贝提供给我们,以保存在我们自有的数据库中。1601年 之前和1874年之后的所有著作,包括从中世纪传下来的极其宝贵的手抄文稿,均在我们自己的数字化中心进行转换。按计划,谷歌项目将在今年年底之前结束。 我们已经将几乎全部100万册藏书,上传至我们网站的数字图书馆,任何人都可以在这里阅读这些书籍。”

      尽管如此,巴伐利亚州立图书馆的全面数字化进程远未走到终点。Ceynowa表示:“我们的工作只是开始,因为我们迄今为止所做的事,为连接和重新组合数 字信息创造了不同的可能性。”巴伐利亚州立图书馆已经开发了数款移动应用程序,包括一款名为“Ludwig II”的应用程序。这款应用程序允许人们按其所在位置,定制查阅与路德维希二世的“童话城堡”有关的历史资料、图像和文献。譬如,当人们站在路德维希二世 在慕尼黑建造的Residenz宫殿的正前方时,他们可以利用其智能电话的照相模式,来获取这座宫殿著名的Wintergarden的实时图像——这座花 园早已湮没在历史的尘埃中。Wintergarden是一座建在Residenz宫殿屋顶的花园,奇花异草掩映其间,人工湖泊波光粼粼——通过这款应用程 序,人们可以欣赏到这美轮美奂的历史景色。

现已可在网上阅读巴伐利亚州立图书馆的近百万藏书。

      民事登记数字化。博物馆和图书馆只是最后一批充分享用全面数字化益处的机构;政府机关和工业企业早已开始利用这项技术。现在,德国的16 个联邦州均计划将其所有民事登记数字化。为此,过去两年来,西门子中央研究院在Bernt Andrassy博士的指导下,受托开展了一项可行性研究。Andrassy解释道:“德国的土地基本上被划分为若干区块。登记制度向这些区块分配了一定 的权利。因此,登记制度是德国土地使用的中央监管机制。目前,各联邦州已经扫描并归档了过去50年来的全部登记文件,西门子中央研究院为它们提供了所需的 重要系统组件。我们收集了大量数据,总共多达约5亿页pdf文件。”

      这个宏大的数字化项目,提出了艰巨的挑战。譬如,西门子团队不得不开发自动化软 件,以识别单个单词,理解关键问题,以及发现扫描文件内的关联,包括打字文件、劣质文件拷贝和含有多处修改的文件。Andrassy解释道:“这款软件必 须知道的一件事,是文件的那个部分含有房地产所有者姓名,哪些部分有关于房地产面积、是否贷款以及由哪家银行发放贷款的信息。”为了解决这些问题,专家不 得不费尽心力编写程序。Andrassy说:“我们的软件可以识别出所要求的信息,并自动填入输入掩码。操作人员仅需检查数据填写是否完整。”目前,各联 邦州计划为这个庞大的归档工程发布招标公告。“待所有登记全部实现数字化之后,每个州都将设立其自有用户的门户网站,以便具有合法利益的个人和机构,快 速、简便地调阅有关文件——譬如,公证机构、银行和税务机关等。”

勃兰登堡州立档案馆保存的一份1743年的手写登记(左图)和法兰克福区法院的一名员工展示的当代电子登记(右图)。

      误读可能导致数百万损失。Andrassy在登记数字化项目中获得的经验,也适用于工业领域。Andrassy表示:“我们正在研制一款 软件包,它能自动登记招标公告中的客户要求,然后,将之与以往项目留下的数字化文档中的数据进行比对。这样的招标公告文件通常采用pdf格式,并且往往厚 达上千页。过去,必须人工摘录每一项技术规格,然后由专家评估,如轮机最大转速,或下午4点以后联合循环发电厂的最大允许噪声级等。”

      但是,要求和技术规格列表通常很长,哪怕误读一个句子,也会在日后导致数百万欧元的损失。考虑到这一点,慕尼黑的专家开发了一项可靠的搜索系统技术,它能 发现所做的每一处变更,并通知用户。其最终目的是,让这款程序将技术规格作为语义对象,来理解并正确解读。Andrassy解释道:“我们所开发的软件, 分为三个工作阶段,我们分别称之为‘标书检索’、‘标书比对’和‘标书追踪’。第一个步骤是一个非常高效的过程,允许用户找到招标文件中的技术规格。在第 二个步骤中,软件将从以往项目的文件中检索类似的技术规格。这样一来,就可以利用以前所做的相应评估,从而避免错误。在最后一个步骤中,软件将在招标文件 的所有新版本中,跟踪所确定的技术规格。”

      这种方法的优点显而易见,因为自动评估大大加快了评估过程,并且有助于尽早发现在类似项目中犯下的错误。此外,这个系统支持客户在最后一刻作出更改,并且快速分析其后果,并将之整合到项目中。

      转瞬间完成档案梳理。全面数字化仅仅是开端。不论是图书馆、政府机关,还是工厂,都在创造大量数字知识,可以采用全新的方式来使用这些知 识。因此,今后几年乃至几十年的开发工作,将侧重于基于软件的工具,这些工具需要在转瞬间完成数字档案筛查、理解语义关联、以及分类并重新组合信息。 Ceynowa表示:“譬如,学者将能够快速确定‘novel’一词最早见于哪部手稿。他们不必钻进故纸堆,查遍世界各地图书馆中的数百份文件,就能得到 答案。这将彻底变革某些研究学科。”

      Andrassy补充道:“可以更加快速地查阅诸如司法判例,以及以往对罕见疾病的医疗诊断等信息。尽管如此,智能数据采掘仍然无法替代人,不过它能为人 们给予支持。换句话说,要打造出能够读懂客户的pdf文件,将之与数据库进行比对,然后立即知道它要制造什么物品及如何制造该物品的自治工厂,还有很长一 段路要走。”

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限