banner

公检法行业大数据--- 之非结构化数据篇

作者: 大数据观察来源: 大数据观察时间:2017-02-19 18:07:560

近年来,随着公检法行业新业务不断上线,公安高清卡口、社采系统和人口库的升级,检察院统一业务软件、高清审讯系统改造,法院的数字法庭、电子卷宗等建设,使得数据每年都是以50-80%的速度递增。大多数公检法行业信息中心主任所要管理的级数据已经从TB级发展到PB级了。特别在公安行业,很多总队的信息中心数据量已经接近10PB。对于如此大数据量的管理,传统的管理模式让IT管理员感到有些力不从心了。

这些数据中的结构化数据,也就是我们通常使用的数据库数据占据数据总量的20%左右,余下的80%都是非结构化数据。这些非结构化数据中主要是视频数据、各类图片、扫描件和各类文档数据。

我们认为非结构化数据重要性早已不亚于那些结构化了的数据库数据。首先,非结构化数据信息量10倍于结构化数据。其次,结构化数据中存放的大都是结果性数据,而非结构化数据中存放的是过程性数据。我们在还原一个案件不仅仅只需要一个结果就行,对过程信息的掌握程度于我们对还原案件真相也是必不可少的。在这些文件中存有大量的情报和工作经验,但随着岗位调动和电脑损坏,导致我们随时都有可能会丢失大量的文档数据,丢而失的都是我们的情报和经验,对于大数据时代来看,这些意味着线索、经验和生产力的覆灭。

然而,非结构化数据管理现状可以说是处于一种“无组织无纪律”的状态。在过去10多年信息化建设中,对于非机构化数据管理方面基本是零投入,更谈不上整体管理。非结构化数据存放地点五花八门,硬盘录像机中、U盘、个人电脑、服务器、邮件系统和FTP服务器中都会出现这些数据。要找一个文件可能要去10多个系统中去搜索,跨系统查询的结果大都是一无所获。在利用方面,我们最常用FTP文件服务器却很难应付大规模的应用。一个地市公安、检察院和法院的用户面对的用户群都是以千计数,而FTP在权限管理、数据保护和数据分享方面很难满足这样的用户数要求。

对于非结构化数据管理,我们认为要做到以下两点,即统一管理和深化应用。对于公检法单位来说,第一步要做的是把分散在各处的非结构化数据进行统一存放管理。大家都知道在数据中心数据管理级别远远高于普通终端,可以采用高可用、多节点和备份容灾系统,确保数据永不丢失。只要进入数据中心的文档云,可以说文档的价值就被永久的保存下来了。而如何让这些文档数据集中管理呢,在实际过程中,不仅要解决技术上的困难,还要克服制度上和工作习惯上的阻碍。

实际上,我们可以按照三步实施的方法来解决非结构化数据的管理难题。

首先,建设私有网盘来吸引一线干警上传非结构化数据。在日常工作中,干警没有很好的数据管理习惯,文档随意存放,要用的时候经常找不到,而放在公有云上又是违法法规的。所以,如果有个基于内网的私有云盘,他们会非常乐意把所有文件都存放上去,方便今后工作。经过1年使用并形成习惯后,就完成了第一步数据集中存放。其次,可以在案件小组中实现人员间的数据共享。在日常办案中,常常需要临时组建侦破小组,时间从几个月到几年不等,小组成员之间相互交换数据只能靠U盘,既不方便和很影响效率。而现在可以用文档云中部门级共享的模式来实现这样的业务场景。最后,当单位使用有一定基础后,可以实现知识文库和非结构化情报数据平台整体迁移,以便充分挖掘文档知识的巨大价值。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限