banner

让科学大数据流动起来

作者: 大数据观察来源: 大数据观察时间:2016-11-27 16:11:140

高性能计算机、互联网、物联网等信息技术飞速发展,强子对撞机、空间遥感等大型科学装置和科研设施的建立与运行,产生了海量的科研数据。数据密集型科研越来越成为当代科学研究的特征,科技进入了“大数据”时代。

2013 年底,美国《自然NATURE》新闻焦点特别介绍了一个饱受实验生物学困惑的硕士研究生改行从事生物信息学研究,并获得成功的真实故事。这则故事是现代科研方式发生变化的生动注脚。

现代科研活动等各个领域都已经推到了一个前所未有的大数据时代,量变引起质变,不断增加的数据引发了人们的思维和行为方式的变革。信息化推动全球各行各业发生颠覆性的改变,在当前,科研信息化工作主要体现为对科研大数据的整合与利用。

现代科研活动中,在观察实验、理论分析、计算流程之后,一种被称之为“数据科学”的学科已经开始显现。基于对大数据的分析来更好地了解世界,解决从前难以解决的,或甚至不可解决的许多科学问题,产生意料之外的科学发现。可以说数据已成为新型战略资源,是驱动创新的重要因素。一个国家的科学研究水平,已越来越多地取决于其数据优势,及将数据转化为信息和知识的能力。

然而,伴随海量科研数据的膨胀,国内与之不相匹配的是数据的保守与应用壁垒,中国工程院孙九林院士、郭华东院士等为此在各类场合呼吁“大数据共享”,希望科研机构突破大数据应用上的诸多保守机制。

业内人士指出,无论是在科研数据的共享政策与机制,还是在对大数据的管理、分析、可视化及应用的技术方面,目前都面临着一系列的问题和挑战。因此,科研信息化建设亟需加强顶层设计,面向用户和实际应用,统筹协调,培养起一支强有力的专业信息化人才队伍,同时,促进数据获取和共享的标准规范,推动科研大数据真正流动起来。

计算能力需面向用户

2013 年底全球超级计算机500 强的榜单上,天河二号蝉联冠军,中国占有65 席,其中多数在高校。中国的超算能力正在向百亿亿次进军。但面临的问题却不容忽视,业内人士指出,如果五年内机器使用率不高,或者效能得不到发挥,巨资投入的超算计算机将血本无归。而“用做什么”一直是这些超算能力萦绕不去的困扰。与此同时,超算能力的过于集中,造成科研领域闲置与稀缺的两种极端情况存在。

国内建立了各级高性能计算中心,而这些能力的输送并不均衡。中国海洋大学的“海洋信息探测与处理”学科研究,常常需要大数据计算,但是,学校30 亿次的计算能力无法满足其需求,因此,每次都让学生用硬盘拷贝几十T 的数据,送到北京的超算中心来进行数据挖掘和分析。

在兰州大学,这个情况尤其突出,兰州大学大气物理所的田文寿所长有同样的感受:“国家不停地建设大型计算设施,在面向用户方面做得不够。”兰州大学也建设了计算中心,但因经费不够,无法扩容,已经停止使用。

“共享粒度还是不够,从长远来看,我们还是要建设全校计算中心。另外,研究者有需求,只能从课题里出钱,还要让教授考虑电、空调这些琐碎的问题。类似的机制需要突破。”兰州大学实验室与设备管理处处长陈文波说。

在我刊2013 年底针对全国30 所985/211 高校的“科研信息化”调研中,问及“是否有适当的软硬件(网络、软件、硬件)支撑科研活动中的计算需求”时,有25所学校回答“有”,而有5 所学校回答“无”;而在问及计算能力是否足够时,有18 所学校认为“足够”,另外12 所学校认为“不够”。究其原因,说明在高校中,计算能力的共享尚有欠缺,信息化专业人才缺失,在共享粒度上应有更细致的统筹安排。

美国乔治亚理工学院的胡泳涛博士十年来一直从事大气模拟实验研究,他每天都要跟大量的数据打交道,气象、气候和环境类的研究需要高性能计算机或超级矩阵计算系统,他认为美国高校科研建立的细粒度的共享机制值得国内借鉴。“现在计算机硬件的发展很快,一般好一些的服务器应该能够满足大多数的研究需要。计算能力是与人相关的,不仅机器到位,专业的人员也需要配备到位。”他说。

在乔治亚理工学院,每个系都有一个计算机维护小组,全职的大概2~3 个人,为系内的研究小组自行购买的设备提供软硬件服务。当然,要是遇到大的环境模拟时,也需要用到大计算能力的服务,而这些计算能力的获取相对简单,乔治亚理工学院有自己的计算中心——PACE,本身具有学校级别的硬件投入,同时加上各个系单个研究小组的资金加入,可以形成超级计算能力。据胡博士介绍,PACE 由10 人左右的专职具有计算机学位的人维护和管理。

再往上一级,在全国范围内,美国也有类似PACE的超级计算中心,例如由20-30 个大学以及美国自然科学基金会NSF 出资共同维护的UCAR(大气研究大学集团),UCAR 拥有77 个大学联合成员,它运用从进行气候和天气模拟的高端计算机到装有密密麻麻仪器的飞行器,研究涉及大气及与之相关的地球科学。UCAR 同时管理着美国国家大气研究中心NCAR。“每一个UCAR 成员单位的学生或研究人员,可以得到免费机时服务的。”胡泳涛说。

这种层层递进,又互相补位的计算能力,使得科研工作者随时可以根据自己的需求,确定采用什么样的计算能力。反观国内,这种机制还有欠缺。

“学院的科研管理归在科技处,但学院里连网络维护专职人员都没有,信息化只是自发的行为。高校岗位设置决定了科研人员和实验人员都有明确的教学任务,没有专职人员去做信息化的工作。”华南理工大学信息办主任陆以勤说。多数受调研的学校也一致提出类似的问题,计算能力的不均衡,其背后的原因更重要的是专业信息化人才的缺失。

国家高性能计算CNGRID 的首席科学家钱德沛教授也看到了这一现状,他提到高性能计算应该以服务业的形式来体现,方能盘活我国目前的计算能力。“未来,中国国家网格服务环境CNGRID 将成为IaaS 和PaaS,在应用社区和网格服务环境之间建立起商业模式,目的是要促进高性能计算服务业。”他说。

呼吁数据开放共享

我国各大科研院校机构中,散落着海量的科研数据。在我刊在调研中,当问及“学科数据库是否为社会提供服务”时,30 所211 高校中仅有8 所学校提供了服务,多数学校未能提供服务。原因主要归结为项目管理不规范、信息技术支持人员缺乏、数据标准不一、提供服务有障碍,等。

华南理工大学陆以勤教授认为:“国家的科研项目管理过程存在问题,国家大项目召开的国际会议也不对公众开放,在实际科研中,都是从国外获取资料,国外的科研项目过程资料都很集中和规范,而国内项目材料要么不公开,要么零散,几乎没留下什么东西。”

当下,大学利用数字文献已经成为一种习惯,复旦大学有一组对比数据充分说明这一点,2005 年,复旦大学购买文献资料的经费中,纸版文献为2053 万元,电子文献资料为505 万元,纸版与电子的投入比例为4:1;2010 年,这一比例上升为2:1,即纸版文献为2100 万元,电子文献资料为1097 万元。去年,这一比例则达到了1:1。

而与加大投入形成鲜明对比的是,文献、信息数据共享壁垒重重。

如同数字图书馆的发展,由于信息数据使用缺乏相应的机制,众多研究机构都在数据共享的问题上争持不下,并且,数据共享还有走回头路的迹象。

从上世纪九十年代初起,中国工程院孙九林院士就从事地理数据的分析与利用,他对国内科研数据的共享过程深有体会:“2000 年左右,我们调查数据共享,当时非常踊跃,但是现在却在走回头路,什么问题呢?很多人看到数据非常重要,就不愿意共享了。现在对数据越抱越紧,即使是科研部门内部,共享情况也不乐观。”

兰州大学大气物理所所长田文寿教授也一样遇到这样的困境:田教授2005 年从英国回兰大,他研究大气气溶胶,涉及到学科交叉比较多,灾害预警管理系统、地质信息、大气数据信息、人口信息、仪器设备等多个单位的数据,需要很多单位的协调和共享。然而,发现国内与英国在科研环境上有许多差别,尤其数据获取的困难带给研究工作诸多障碍。

中国海洋大学的钱教授提到:“我们遇到的挑战是,在国内获取数据比从国外还要困难。”在海洋大学,内部对科研数据共享有一个期限,一两年之内(课题组有优先使用权),原则上通过学校数据中心,普通教师可以获取。(除非是保密数据,需要有一定的审查。)然而,由于机制所限,中国海洋大学的科研数据原则上不提供对外服务。“不共享,我们是无法获取到他人的数据的,这也是导致我们现在缺少基础科学数据库的最大原因。”钱教授说。

而与此形成鲜明对比的是,美国国家海洋气象局(简称NOAA)的气象数据,中国海洋大学基本上延迟三个小时就能获取。美国国家海洋数据中心(简称NODC)汇集了全球最大的并可公开查询的海洋数据,其数据的使用基本面向科研工作者免费开放,无论是对提供者,还是对使用者。

据了解,美国科研机构对数据(不论是观测到的还是加工过的)的应用,大致可以分为政府(包括联邦和州)机构制造的,比如气象局观测的、预报的、环保局观测的、计算的、NASA 观测的和繁衍的,以及资源人口普查数据等等。在美国,除非是机密,前两类数据是法律规定必须公开的。

为此,华南理工大学陆以勤教授建议,应建立统一的科研项目管理系统,以利于数据共享及各类数据库的建立。“目前各类型项目要求都不同,各自建设,重复建设而且使用复杂。从国家层面上,项目管理系统应该是统一的,项目管理系统应具备开放性、系统性和全面性,把上级部门、管理人员和科研人员很好地结合起来。”他说。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限