banner

大数据安全与隐私保护 数据分析是核心流程

作者: 大数据观察来源: 大数据观察时间:2017-06-03 12:45:500

当今,社会信息化和网络化的发展导致数据爆炸式增长。据统计,平均每秒有200万用户在使用谷歌搜索,Facebook用户每天共享的东西超过40亿,Twitter每天处理的推特数量超过3.4亿。同时,科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2012年全球信息总量已经达到2.7 ZB,而到2015年这一数值预计会达到8 ZB。这一现象引发了人们的广泛关注。在学术界,图灵奖获得者Jim Gray提出了科学研究的第四范式,即以大数据为基础的数据密集型科学研究;2008年《Nature))推出了大数据专刊对其展开探讨;2011年《Science》也推出类似的数据处理专刊。IT产业界行动更为积极,持续关注数据再利用,挖掘大数据的潜在价值。目前,大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner预测,2013年大数据将带动全球IT支出340亿美元,到2016年全球在大数据方面的总花费将达到2320亿美元。Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一。不仅如此,作为国家和社会的主要管理者,各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data.gov网站,向公众开放政府所拥有的公共数据。随后,英国、澳大利亚等政府也开始了大数据开放的进程,截至目前,全世界已经正式有35个国家和地区构建了自己的数据开放门户网站。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。在我国,2012年中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会,为我国大数据应用和发展提供学术咨询。

目前大数据的发展仍然面临着许多问题,安全与隐私问题是人们公认的关键问题之一。当前,人们在互联网上的一言一行都掌握在互联网商家手中,包括购物习惯、好友联络情况、阅读习惯、检索习惯等等。多项实际案例说明,即使无害的数据被大量收集后,也会暴露个人隐私。事实上,大数据安全含义更为广泛,人们面临的威胁并不仅限于个人隐私泄漏。与其它信息一样,大数据在存储、处理、传输等过程中面临诸多安全风险,具有数据安全与隐私保护需求。而实现大数据安全与隐私保护,较以往其它安全问题(如云计算中的数据安全等)更为棘手。这是因为在云计算中,虽然服务提供商控制了数据的存储与运行环境,但是用户仍然有些办法保护自己的数据,例如通过密码学的技术手段实现数据安全存储与安全计算,或者通过可信计算方式实现运行环境安全等。而在大数据的背景下,Facebook等商家既是数据的生产者,又是数据的存储、管理者和使用者,因此,单纯通过技术手段限制商家对用户信息的使用,实现用户隐私保护是极其困难的事。

当前很多组织都认识到大数据的安全问题,并积极行动起来关注大数据安全问题。2012年云安全联盟CSA组建了大数据工作组,旨在寻找针对数据中心安全和隐私问题的解决方案。本文在梳理大数据研究现状的基础上,重点分析了当前大数据所带来的安全挑战,详细阐述了当前大数据安全与隐私保护的关键技术。需要指出的是,大数据在引人新的安全问题和挑战的同时,也为信息安全领域带来了新的发展契机,即基于大数据的信息安全相关技术可以反过来用于大数据的安全和隐私保护。本文在第5节对其进行了初步分析与探讨。

2.大数据研究概述

2.1 大数据来源与特征

普遍的观点认为,大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集。大数据的常见特点包括大规模(volume)、高速性(velocity)和多样性(variety)。根据来源的不同,大数据大致可分为如下几类:

(1)来自于人。人们在互联网活动以及使用移动互联网过程中所产生的各类数据,包括文字、图片、视频等信息;

(2)来自于机。各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息;

(3)来自于物。各类数字设备所采集的数据。如摄像头产生的数字信号、医疗物联网中产生的人的各项特征值、天文望远镜所产生的大量数据等。

2.2 大数据分析目标

目前大数据分析应用于科学、医药、商业等各个领域,用途差异巨大。但其目标可以归纳为如下几类:

(1)获得知识与推测趋势

人们进行数据分析由来已久,最初且最重要的目的就是获得知识、利用知识。由于大数据包含大量原始、真实信息,大数据分析能够有效地摒弃个体差异,帮助人们透过现象、更准确地把握事物背后的规律。基于挖掘出的知识,可以更准确地对自然或社会现象进行预测。典型的案例是Google公司的Google Flu Trends网站。它通过统计人们对流感信息的搜索,查询Google服务器日志的IP地址判定搜索来源,从而发布对世界各地流感情况的预测。又如,人们可以根据Twitter信息预测股票行情等。

(2)分析掌握个性化特征

个体活动在满足某些群体特征的同时,也具有鲜明的个性化特征。正如“长尾理论”中那条细长的尾巴那样,这些特征可能千差万别。企业通过长时间、多维度的数据积累,可以分析用户行为规律,更准确地描绘其个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐。例如Google通过其大数据产品对用户的习惯和爱好进行分析,帮助广告商评估广告活动效率,预估在未来可能存在高达到数千亿美元的市场规模。

(3)通过分析辨识真相

错误信息不如没有信息。由于网络中信息的传播更加便利,所以网络虚假信息造成的危害也更大。例如,2013年4月24日,美联社Twitter帐号被盗,发布虚假消息称总统奥巴马遭受恐怖袭击受伤。虽然虚假消息在几分钟内被禁止,但是仍然引发了美国股市短暂跳水。由于大数据来源广泛及其多样性,在一定程度上它可以帮助实现信息的去伪存真。目前人们开始尝试利用大数据进行虚假信息识别。例如,社交点评类网站Yelp利用大数据对虚假评论进行过滤,为用户提供更为真实的评论信息;Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。

2.3 大数据技术框架

大数据处理涉及数据的采集、管理、分析与展示等。图1是相关技术示意图。

(1)数据采集与预处理(Data Acquisition & Preparation)

大数据的数据源多样化,包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据。因此,大数据处理的第一步是从数据源采集数据并进行预处理操作,为后继流程提供统一的高质量的数据集。

由于大数据的来源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在数据集成过程中对数据进行清洗,以消除相似、重复或不一致的数据是非常必要的。文献中数据清洗和集成技术针对大数据的特点,提出非结构化或半结构化数据的清洗以及超大规模数据的集成。

数据存储与大数据应用密切相关。某些实时性要求较高的应用,如状态监控,更适合采用流处理模式,直接在清洗和集成后的数据源上进行分析。而大多数其它应用则需要存储,以支持后继更深度的数据分析流程。为了提高数据吞吐量,降低存储成本,通常采用分布式架构来存储大数据。这方面有代表性的研究包括:文件系统GFSE、HDFS和Haystack等;NoSQL数据库Mongodb、CouchDB、HBase、Redis、Neo4j等。

(2)数据分析(Data Analysis)

数据分析是大数据应用的核心流程。根据不同层次大致可分为3类:计算架构、查询与索引以及数据分析和处理。

在计算架构方面,MapReduce是当前广泛采用的大数据集计算模型和框架。为了适应一些对任务完成时间要求较高的分析需求,文献对其性能进行了优化;文献提出了一种基于MapReduce架构的数据流分析解决方案MARISSA,使其能够支持实时分析任务;文献则提出了基于时间的大数据分析方案Mastiff;文献也针对广告推送等实时性要求较高的应用,提出了基于MapReduce的TiMR框架来进行实时流处理。

在查询与索引方面,由于大数据中包含了大量的非结构化或半结构化数据,传统关系型数据库的查询和索引技术受到限制,而NoSQL类数据库技术得到更多关注。例如,文献提出了一个混合的数据访问架构HyDB以及一种并发数据查询及优化方法。文献对key-value类型数据库的查询进行了性能优化。

在数据分析与处理方面,主要涉及的技术包括语义分析与数据挖掘等。由于大数据环境下数据呈现多样化特点,所以对数据进行语义分析时,就较难统一术语进而挖掘信息。文献针对大数据环境,提出了一种解决术语变异问题的高效术语标准化方法。文献对语义分析中语义本体的异质性展开了研究。传统数据挖掘技术主要针对结构化数据,因此迫切需要对非结构化或半结构化的数据挖掘技术展开研究。文献提出了一种针对图片文件的挖掘技术,文献提出了一种大规模TEXT文件的检索和挖掘技术。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限