大数据治理系列七: 分析监管、安全与隐私管理和信息生命周期监管

作者: 大数据观察来源: 大数据观察时间:2017-01-28 14:00:330

大数据治理统一流程参考模型（续）第十四步：运营分析监管

无用的数据会造成前端 KPI 指标的失效，也就是所谓的“无用输入产生无用输出”。不同的部门使用不一致的数据制作报告给企业带来了额外的困扰，IT 并非始终了解数据仓库或数据集市中的数据并清楚的知道正在使用哪些报告。企业可以通过实施商业智能能力中心（BICC）解决这些问题，BICC 是指将具有关联规程、知识领域、经验和技能的人员聚集在一起的组织结构，目的是在整个组织内增进专业技能。BICC 也称为卓越运营中心（COE）、能力中心或知识中心，具体包括以下子步骤：

定义 BICC 的目标；准备 BICC 的业务案例；确定 BICC 的组织结构；商定 BICC 的关键功能。第十五步：预测分析监管

预测分析监管主要负责对商业理解、数据理解、数据准备、建立模型模型评估和模型部署过程所涉及的数据、规程、领域经验和模式等进行监管，保证数据的一致性和准确性，是实现预测分析、构建创新型应用的重要基础。企业同样可以通过实施商业智能能力中心（BICC）来解决这些困难。

第十六步：管理安全与隐私

在大数据时代，如何进行个人隐私保护是各个行业面临的一个巨大挑战。比如电信运营商通过全球定位系统（GBS）信号跟踪个人位置信息进行位置营销，或者将该信息出售给第三方进行广告促销推送过程中一旦被滥用，就有可能对人身安全造成侵害。再比如电力行业，电力企业通过部署智能电表可以准实时的采集最终用户的电力使用情况，这些数据如果没有进行妥善保管，一旦被泄露就有可能对最终用户的安全造成损害（比如窃贼根据用户电表使用数据确认用户何时不在家）。

自 1890 年哈佛大学法学院教授路易斯•布兰迪斯和塞缪尔•沃伦在《哈佛法学评论》上发表了《隐私权》的论文，将隐私定义为“让人独处的权利”以来，隐私权的保护经历了一个漫长的发展过程，目前我国的法律尚未确立隐私权可作为独立的民事权利的地位。对隐私权采取了间接保护的方式，关于隐私权保护的规定分散于多部法律法规中，如 1997 年颁布的新刑法蕴含了对公民隐私权的保护，例如刑法第二百四十五条规定的“非法搜查罪”和非法入侵住宅罪”：非法搜查他人身体、住宅，或者非法侵入他人住宅的，处三年以下有期徒刑或者拘役。再比如刑法第二百五十二条规定的“侵犯通信自由罪”：隐匿、毁弃或者非法开拆他人信件，侵犯公民通信自由权利，情节严重的，处一年以下有期徒刑或者拘役。而国外网络隐私权的保护区分为两种基本的模式：一种以美国为代表的行业自律模式；另一种以欧盟为代表的以法律规制为主导的模式。在欧洲，目前欧盟正在制定统一的数据保护法规，将用来取代 28 个不同的欧盟成员国各自的数据保护国家法律，并有可能在 2015 年实施。在欧洲数据保护指令中将个人数据定义为：与任何已经识别或者可识别的自然人（数据主体）有关的任何信息。可识别的个人，是指能被直接或间接识别的个体，特别是参考身份证件号码或针对其身体、生理、经济、文化或社会身份等一个或多个因素可识别的个体 [3]。在 2000 年 12 月美国商业部和欧盟签署了安全港协议，用于协调美国企业出口以及欧洲公民的个人信息数据如名字和住址等。

简单来说，企业可以尝试以下步骤进行大数据的隐私管理：

定义和发现敏感的大数据，并在元数据库中将敏感大数据进行标记和分类；在收集、存储和使用个人数据时需要严格执行所在地关于隐私方面的法律法规，并制定合理的数据保留/处理政策，遵循公司法律顾问和首席隐私官的建议；

比如欧盟数据保护指令中规定个人享有遗忘权，如果个人不希望自己的信息被收集且法律也不支持组织保留这些信息时，组织需要将个人数据从系统中删除。证明需要保留此类数据的责任在组织而不是个人。同时在欧盟保护指令中明确要求组织保留个人数据需要明确的告知个人其信息如何被使用以及使用期限，并获得个人的明确同意后方可保留这些数据。

在存储和使用过程中对敏感大数据进行加密和反识别处理；

比如美国联邦贸易委员会（FTC）提议针对收集的个人数据，企业需要采取合理措施进行反识别处理，在以反识别的方式保留和处理数据时需要采取措施防止再次识别个人数据，企业向第三方提供数据时要禁止第三方尝试再次识别个人数据。

由于世界是互通互联的，个人数据在跨国流动过程中需要严格遵守相关国家法律规定；加强对系统特权用户的管理，防止特权用户访问敏感大数据；自动执行合规性工作流过程，保护非生产环境中的敏感大数据，监控应用程序欺诈行为，防止网络攻击。第十七步：监管信息生命周期

信息生命周期监管是指用于信息架构、分类、收集、使用、归档、保留和删除的基于策略的系统方法。针对传统数据的信息生命周期监管，可以尝试以下步骤来实现：

建立信息架构；建立数据库大小和存储架构基线；发现业务对象；对数据分类和定义服务级别；归档数据和非结构化内容；为管理测试数据制定策略；定义合法发现电子文档的策略；分析内容。

在大数据时代，过度管理数据会带来成本的极大增加，需要在满足业务需求以及法律法规的前提下制定明确的保留时间表，对实时流数据进行管理识别出哪些数据是有价值的哪些数据需要被永久保存，积极采用压缩技术进行大数据的存储从而降低存储成本，在符合业务和法律法规要求的前提下对不需要的大数据进行合理的处置。

第十八步：度量结果

通过持续的监控数据治理度量值，保证了数据的质量和信息供应链各模块更好地运行。度量值是在步骤 10 中设置的，又在之后的可选步骤中做了进一步的设置，本步骤主要针对这些度量值进行监控，及时向数据治理工作组和数据治理委员会报告进度。

IBM Cognos BI

如图 1 所示，IBM Cognos BI 平台是一个多层次结构，具体包括：展现层、Web 层、应用层和数据层，不同层次之间可以采用防火墙进行分隔。

展现层：包含基于 Web。Windows 客户端和移动客户端三种，通过 Web 方式用户可以访问所有的 Cognos BI 功能（即席查询、专业报表、多维分析、仪表盘和记分卡等），且不需要安装任何插件。Cognos 支持在移动终端上运行，支持 iphone、ipad、windows mobile、symbian、blackberry 等移动平台。Cognos BI 支持与 MS OFFICE 无缝融合。OLAP 分析模块 Cognos 还提供了客户端方式，用户可以灵活选择浏览器模式或客户端模式。 Web 层：主要部署 Cognos 的网关程序，网关程序可以部署在 Apache/IBM HTTP SERVER/IIS 或其他中间件上，用户通过浏览器访问时访问请求首先发送到网关，网关再发送给 BI Server 进行处理。应用层：即席查询、多维分析、报表统计、内容管理和内容服务等都被定义为服务，不同服务间通过 Cognos BI Bus（不同 Services 间通信的公共协议）进行交互。数据层：包含 BI 平台支持的各种数据源（关系型数据库、多维数据仓库和企业级应用等），Cognos 支持多数据源，但是它是在统一的元数据基础之上支持的。图 1. Cognos BI 体系结构

如图 2 所示，Framework Manager 是构建 Cognos BI 应用程序的基础，负责对来自数据集市（或关系型数据库以及应用系统的数据源）的数据结构进行建模，在这些数据模型的基础之上可以进行即席查询（Query Studio）和报表统计（Report Studio）的开发，也可以基于这些模型进一步进行 OLAP 多维分析建模（使用 Transformer）并最终生成 PowerCubes 数据立方体，基于 PowerCubes 可以进行各种应用程序开发如多维分析（Analysis Studio）以及即席查询（Query Studio）和报表统计（Report Studio）等，最终的应用程序用户可以通过 Web 浏览器进行访问。

图 2. Cognos 开发步骤

如图 3 所示，Cognos BI 应用程序可以使用 ROLAP 和 MOLAP（基于 Powercube）两种方式进行多维分析，简单的查询和报表也可以基于关系型模型进行。

图 3. Cognos BI 应用程序层次结构

IBM SPSS Modeler

数据挖掘（Data Mining）也被称为数据采矿，通过对海量历史数据进行建模和搜索，以便从中发现隐藏其中的有特殊关联性或有价值的潜在信息以及模式等。数据挖掘引擎则是提供数据挖掘建模和评估的工具，通常提供可视化数据准备、建模、评估和部署，引擎内部包含丰富的数据挖掘模型。在数据挖掘之前需要明确挖掘的目标以及成功标准（包括主观标准和客观标准），以便建模完成后进行评估；建模过程中需要防止过滤训练造成预测不准现象；另外还需要清楚，数据挖掘有其适用的范围，不是无所不能的，需要尽量避免出现数据捕捞或数据挖泥（Data dredging，Data fishing）现象，因为很多数据之间总会有碰巧情况存在，数据挖泥通常指挖掘出实际上不存在的但看起来不错的模式，比如预测下一期彩票中奖号码等。

如图 4 所示，根据 CRISP-DM（CRoss-Industry Standard Process for Data Mining，跨行业数据挖掘标准流程），预测模型构建一般包含六个步骤：商业理解、数据理解、数据准备、建立模型、模型评估和部署发布，其中的箭头表示这些阶段间最重要和最频繁使用的依赖关系。CRISP-DM 模型比较灵活，可根据需要灵活进行选择，比如银行打算进行反洗钱监测，则很多情况下需要在没有具体建模目标的情况下对海量数据进行筛选，此时重点是数据探索和数据展现为主而不是建模，以便揭示可以的财务数据模式。更多内容请参考 IBM SPSS Modeler CRISP-DM 帮助。

图 4. CRISP-DM 流程

IBM SPSS Modeler（以下简称 Modeler）是业内领先的数据挖掘工具，由一系列组件（工具）构成，通过使用这些工具企业可以快速建立预测性模型并应用于商业活动，从而改进决策过程。Modeler 是参照 CRISP-DM 模型设计而成，支持从数据到更优商业成果的整个数据挖掘过程，提供了各种借助机器学习、人工智能和统计学的建模方案。通过建模选项板中的方法，用户可以根据数据生成新的信息以及开发预测模型。每种方法各有所长，可以通过试用多种方法以及方法间的嵌套、加权外加评估等解决特定类型的问题。使用 Modeler 进行预测分析，通过对当前条件和未来事件进行可靠的推理，从而将数据转化为有效的措施。

SPSS Modeler 有两个版本：SPSS Modeler Professional 和 SPSS Modeler Premium。两个版本都可以通过图形化的方式进行各种数据交互从而了解数据、通过对各种数据源支持实现数据准备、集成各种算法、交互式模型和方程浏览器等进行建模和评估、通过 SQL 或 PMML（针对预测模型的基于 XML 的标准格式）导出模型或利用 IBM SPSS 协作和部署服务实现创新分析管理、流程自动化和部署功能等，共同包含的算法有：

异常检测－使用一种基于群集的算法检测不寻常的记录 Apriori －带有高级评估功能的流行关联发现算法贝叶斯网络－图形概率模型 C&RT、C5.0、CHAID 和 QUEST －决策树算法，包括交互树构建 CARMA －关联算法，支持多个结果 Cox 回归－计算某个事件的可能发生时间 Decision List －交互式规则构建算法 Factor/PCA、Feature Selection －数据简化算法 K-Means、Kohonen、Two Step、Discriminant、支持向量机（SVM）－群集和分割算法 KNN －最近邻居建模和评分算法 Logistic 回归－用于二进制结果神经网络－多层感知器，带有逆向传播学习法和径向基本函数网络回归、线性、GenLin（GLM）、广义线性混合模型（GLMM）－线性方程建模自学响应模型（SLRM）－带增量学习功能的贝叶斯模型 Sequence －顺序关联算法，用于对顺序敏感的分析支持向量机（Support Vector Machine）－准确建模广泛数据集的高级算法时间序列－生成并自动选择时间序列预测模型

SPSS Modeler Premium 在数据准备、对特定文本的了解和准备工作和文本链接分析等方面有很多增强，具体可以参考 IBM 官方网站。

另外，SPSS Modeler 服务器版还具有以下独特的特性：

使用领先的数据库技术，通过数据库内挖掘在数据库中创建模型，并充分利用高性能的数据库实现。通过 SQL 推回功能来推动数据转换，并将建模算法直接选入到运行数据库中。通过 IBM SPSS Modeler Server Scoring Adapter 在数据库内对数据评分，显著提高性能。利用高性能硬件（包括 IBM System z 机器）更快实现解决方案，通过并行执行流和多个模型实现更好的 ROI。通过安全套接字层（SSL）加密，在 SPSS Modeler 客户端和 SPSS Modeler 服务器之间安全地传输敏感数据。针对 IBM InfoSphere 的数据库内挖掘算法：关联、群集、决策树、Logistic 回归、Naive Bayes、回归、序列、时间序列。针对 IBM Netezza 的数据库内挖掘算法：Bayes Net、决策树、分群法、广义线性、K-Means、KNN、线性回归、Naive Bayes、PCA、回归树、时间序列。针对 Microsoft SQL 服务器的数据库内挖掘算法：关联规则、群集、决策树、线性回归、Naive Bayes、回归、神经网络、序列群集、时间序列。针对 Oracle 的数据库内挖掘算法：自适应贝叶斯、Apriori、人工智能（AI）、决策树、一般线性模型（GLM）、KMeans、最小描述长度（MDL）、 Naive Bayes、非负矩阵分解、O-Cluster（正交分区群集）、支持向量机。通过 IBM SPSS Analytic Server（IAS），实现与 Hadoop 的整合

如图 5 所示，通过 IBM SPSS Analytic Server（IAS），用户可以方便的在 SPSS Modeler 客户端或者 SPSS Analyitc Catalyst 中基于 Hadoop 中的数据进行数据挖掘建模。IBM SPSS Analytic Server 是处于客户应用程序和 Hadoop 集群中间的数据分析引擎。用户通过使用 SPSS Modeler 客户端或者 SPSS Analyitc Catalyst，将各种分析请求发送给 SPSS Analytic Server，SPSS Analytic Server 将协调作业将其运行在 Hadoop 集群并将结果返回给客户端应用程序。

图 5. IAS 体系结构

通过 SPSS Modeler 和 Cognos BI 协作，实现深入的分析洞察

通过运营分析（Cognos BI），企业所有用户可以发现大量有价值信息，通过定制的页面各种用户都可以在适当的时间获得合适的信息，通过记分卡和仪表盘，企业各级管理人员可以掌控业务进度，通过各种统计报表、即席查询、离线报表决策者可以深入了解业务状况，通过 Cognos Mobile 用户可以以移动方式访问各种报表和查询，通过协作功能，企业各业务条块人员可以紧密结合与协作。运营分析为用户制定下一步规划提供了支持。预测分析（SPSS Modeler）通过对过去海量数据进行建模和探索，找出过去未知的潜在的规律和模式，通过预测未来可能发生的事件为用户提供预测能力。通过将预测分析和运营分析相结合，从而实现业务分析洞察的基础上增加预测未来的能力，为企业更好的决策提供帮助，获取深入的分析洞察。比如银行业务经理通过记分卡和仪表盘发现一些银行的理财产品销售量在不断下降，分析报告显示，部分客户选择了其他银行的理财产品，通过使用 SPSS Modeler 进行客户流失分析，找出客户流失的关键因素以及可能流失的高价值客户，从而制定合理的客户维护挽留计划，降低高端客户流失率，另一方面通过交叉销售和提升销售，进一步扩展理财产品的销售量，从而提高银行营收。

IBM Guardium

IBM Guardium 是解决整个数据库安全与合规周期问题的解决方案，其对数据库的性能影响几乎为零，不需要依赖数据库本地日志或审计工具，也不需要对数据库做任何变更，避免了传统数据库审计方式对数据库性能的影响。IBM Guardium 采用统一的 Web 控制台、后端数据存储和工作流自动化系统，可以方便的寻找和分类企业数据库中的敏感信息，评估数据库的漏洞和配置缺陷，确保配置已锁定和变更追踪，获得对所有数据库活动细粒度化的 100%可视性，监控和执行各项安全策略，自动化整合合规审计流程，创建单一集中的审计库和易扩展至分布到世界各地的数据中心，实现从保护单个数据库到保护成千上万个数据库的转变。

图 6. Guardium 统一解决方案

如图 6 所示：IBM Guardium 是当前解决整个数据库安全与合规/审计问题的唯一方案，从四个方面满足了企业数据安全及审计要求：

发现&分类：在一个个业务竖井中，分散着大量的敏感数据，这些敏感数据通常不容易被发现和保护，为了保护敏感信息，控制风险，满足合规要求，企业需要能够发现和分类这些敏感数据。Guardium 提供数据库自动搜索和信息分类功能，识别敏感数据的存储位置，并可以定制分类标签来执行特定的安全策略以便保护敏感信息。评估&加固：通过扫描整个数据库体系结构，搜索漏洞，并基于实时和历史数据对数据库安全状态进行评估。Guardium 预置了一个综合测试库（基于业界最佳实践和特定平台漏洞），可通过订阅服务定期更新，并支持自定义测试。评估模块会标记与合规相关的漏洞。审计&报表：可帮助用户创建覆盖所有数据库活动的连续、详细的追踪记录，并进行实时的语境分析和过滤从而实现主动控制，生成细粒度的审计记录。生成的结果报表使所有数据库活动详细可见，而且由于审计发生在数据库服务器之外，不会对数据库服务器造成额外的性能压力。监控&执行：通过可定制的细粒度的实时数据库安全和变更控制策略防止特权用户进行非法或可疑访问，抵挡欺诈用户和外来者的入侵，识别使用通用账号（透过应用系统）更改后天数据库的应用账号行为。该解决方案无需 DBA 参与，而是由信息安全专员负责维护。

在 Guardium 中，新增了对 Hadoop 的支持，通过使用 IBM Guardium，用户可以获取有针对性的、可操作的信息，极大地简化了用户审计过程。通过定义安全策略，用户可以指定需要保存什么数据以及如何应对策略违规。数据事件直接写入 Guardium 收集器，特权用户甚至都没有机会访问并隐藏他们的踪迹。开箱即用的报告可以让用户立即开始快速运行 Hadoop 监控，而且这些报告可以很容易通过定制来符合用户的审计需求。IBM Guardium 主要使用探测器（称为 S-TAP，用于软件）对 Hadoop 进行监控，无需依赖 Hadoop 的审计日志即可监控所有相关操作，无需对系统软件或应用程序进行任何更改。IBM Guardium 对 Hadoop 监控的事件包括：

会话和用户信息。 HDFS 操作 – 命令（cat、tail、chmod、chown、expunge，等等）。 MapReduce 作业 - 作业、操作、权限。异常，比如授权故障。 Hive / HBase 查询 - 改变、计数、创建、删除、获取、放置、列出，等等。 InfoSphere Optim Data Growth Management

归档是一个自动化智能流程，可将依然存在价值但却不使用或不经常访问的数据放置在合适的存储层中，同时，还能够在一个特定的保持时段中保存、搜索和检索数据，满足合规性、业务价值或文化/传统需求。IBM Optim 数据归档解决方案可以帮助企业对数据进行自动分类的存储资源管理并构建合理的分层的存储硬件环境，提供先进的数据检索和分析工具对不同类型的数据进行处理，提供数据的可用性和管理效率，从根源上解决数据增长问题。Optim Data Growth Management 通过归档事务处理的历史记录，并以安全和成本节省的方式存储这些记录，减少了生产库的数据量，提高了生产系统的速度，其体系结构如图 7 所示：

图 7. InfoSphere Optim Data Growth Management 体系结构

InfoSphere Optim Test Data Management

传统的测试数据管理方法有克隆（Cloning）和复制（由几条数据复制成几百万条）等，由于质量管理、测试和开发等都需要测试数据，采用克隆的方式会加大 DBA 的工作负担，耗时、直接影响开发测试进度，消耗大量系统资源，生产系统往往无法承担在线备份所带来的系统开销，同时在克隆过程中还存在对敏感数据的保护不足等问题。采用复制的方式简单易行，缺点是数据无法准确反映业务特点，测试结果和实际有出入。IBM Optim 测试数据管理和隐私数据保护解决方案提供一系列的工具和服务，从生产环境抽取出符合业务逻辑的数据集合，帮助用户迅速构建大小适中的测试、开发、培训环境，并保护隐私数据的安全性。

提供条件与抽样等方式，获取大小合适的的测试数据集。在数据抽取、加载或离线阶段，均可制定变形规则，实现隐私数据的可靠保护，并确保变形后数据的完整性。抽取或变形后的数据可加载到任意类型的目标数据库中（如从 Oracle 中抽取数据，变形后，在 DB2 中加载、创建原始数据环境）。通过格式化压缩文件保留数据的各种版本（结构与 DDL），可实现在异构环境中恢复或获取数据定义。格式化压缩文件独立存储，可在测试、开发过程中反复加载，不对生产环境造成新的压力。

Optim 测试数据管理流程如图 8 所示，除了提供的标准功能外，企业可以根据自身特点自定义管理流程：

测试数据的供数管理，定义数据从生产环境到测试环境的过程；数据请求管理，定义了项目组申请测试数据的标准流程；密钥管理，定义了数据变形算法密钥的管理过程；环境准备规定测试数据加载所需准备的环境参数等等。图 8. OPTIM 测试数据管理流程

Optim 提供完善的测试数据生成，敏感数据转义、变形和转换组件，可通过一组内置变形函数实现客户敏感数据的替换、变形并保持准确语义以产生精确的测试数据集。通过对敏感信息进行变形，用户可以有效实现隐私数据保护，满足各种法规的隐私保护要求。

结束语

本文详细介绍了大数据治理统一流程参考模型第十四步“运营分析监管”、第十五步“预测分析监管”、第十六步“管理安全与隐私”、第十七步“监管信息生命周期”和第十八步“度量结果”，以及 IBM Cognos BI，SPSS Modeler，Guardium，Optim Data Growth Management 和 Optim Test Data Management 等产品介绍。

综上所述，在各行各业中，随处可见因数量、速度、种类和准确性结合带来的大数据问题，为了更好地利用大数据，大数据治理逐渐提上日程。大数据治理的核心是为业务提供持续的、可度量的价值。大数据治理人员需要定期与企业高层管理人员进行沟通，保证大数据治理计划可以持续获得支持和帮助。相信随着时间的推移，大数据将成为主流，企业可以从海量的数据中获得更多的价值，而大数据治理的范围和严格程度也将逐步上升。