banner

大数据治理系列五: 定义度量值和主数据监管

作者: 大数据观察来源: 大数据观察时间:2017-01-01 18:57:210

大数据治理统一流程参考模型(续) 第十步:定义度量值

      数据治理需要全面的度量值或关键业务指标(KPI)来衡量和跟踪数据治理计划的进度,考核数据治理的效果。定义度量值的步骤如下:

根据业务需求,了解业务的整体 KPI。 针对数据治理定义业务层面 KPI:比如税务部门核心征收管理业务都是围绕着纳税人进行的,每个纳税人都有自己的纳税人登记证号(且符合特定的编码规则),从省级地税层面来看,由于 一些省份没有实现核心征管全省大集中或者实现了全省集中,但是核心征管相关的功能分散在多个系统中实现,纳税人登记证号存在多种不符合编码规则的现象(错 误录入或虚假信息),可以将错误纳税人登记证号的纳税人记录的百分比作为数据治理 KPI。数据治理计划可以使用该度量值定期向数据治理工作组和数据治理委员会报告。 针对数据治理定义技术性 KPI。 建立用于数据治理成熟度评估的仪表盘。 第十一步:主数据监管

      主 数据(Master Data)是指在整个信息供应链中各个业务系统之间都需要共享的数据、业务规则和策略等。常见的主数据主要包括与客户(customers),供应商 (suppliers),帐户(accounts)以及组织单位(organizational units)相关的数据。主数据管理(Master Data Management,MDM)描述了一组约束(规程)、方法和技术解决方案用来保证整个信息供应链内主题域(subject domain)和跨主题域相关主数据的完整一致性。主数据管理是应用流程的补充,为应用提供精确、完整的关键业务实体数据。

      主数据管理是构 建企业信息单一视图的重要组成部分,可以保证在整个企业范围内跨业务竖井协调和重用主数据。主数据管理不会创建新的数据或新的数据纵向结构,而是提供一种 方法使企业能够有效地管理分布在整个信息供应链中的各种主数据(由信息供应链各业务系统产生)。MDM 可以帮助企业构建并维护贯穿整个信息供应链的主数据单一视图(Master Data Single View),提供主数据的质量管理(数据治理)和统一业务实体定义(元数据),简化并改进业务流程并提高业务响应速度。统一完整的元数据管理,特别是清晰 的主题域划分、完善的元模型和元元模型有利于更好地管理主数据。

      主数据管理问题的存在,是由企业业务发展的渐进性、IT 技术发展的渐进性、业务系统自下而上而不是自上而下、缺乏统一的数据治理和元数据管理共同造成的。正是由于这种渐进性,各企业的业务系统都大体经历了从无 到有,从简单到复杂,直到形成了一个个业务竖井。从根本上来说,企业很难只用一个业务系统覆盖所有的业务,特别是大型跨国公司,同一个业务系统也可能会在 不同的国家或地区部署多套,加上企业信息化建设缺少统一规划,从而造成了需要在各业务系统中共享的主数据被分散到了各个业务系统分别进行管理。分散管理的 主数据由于不具备一致性、准确性和完整性,使得各个企业普遍存在着产品、供应商和订单管理不力的现象,解决这一问题的根本方法就是引入主数据管理。

      在 大数据时代,通过建立大数据与主数据之间的映射关系可以有效地提高客户关系管理水平,提高客户满意度和忠诚度,提升销售业绩,比如通过从微博、微信、交友 网站以及 Call Center 语音记录中获取数据,进行更精确的客户流失建模,可以有效的提升客户流失预测的准确率,再比如从社交媒体、多媒体、电话语音记录等多种数据源获取数据用于 客户细分、交叉销售、提升销售、客户维护挽留、客户偏好管理等,都可以有效地提升客户关系管理水平。

      主数据监管是个持续的过程,企业领导者通过主数据监管管理其主数据的质量,定义准则、策略、流程、业务规则以及度量值,从而实现业务目标。主数据监管主要包括委派数据管理员、管理数据质量和实施主数据管理三部分。

图 1. IBM 数据管理成熟度

委派数据管理员:主要包括委派首席数据管理员、确定数据管理工作计划的配置(根据成熟度的不同,从低到高分为按 IT 系统、按组织和按主题区域调整数据管理工作,具体如图 1 所示)、确定每个数据领域的主管发起人以及为每个数据领域分配数据管理员等。 管理数据质量:通过使用度量、提高和证明企业数据质量和完整性的各种方法,提高主数据的质量,防止数据质量随着时间的推移而降低。数据质量包括数据标准 化、匹配、存活力和长期的质量监控。数据治理组织需要制定用于确定高价值数据属性的策略和用于度量数据质量逐渐改善情况的机制。管理数据质量主要包括以下 子步骤: 制定数据质量策略,包括高价值数据属性的确定; 建立数据质量基线; 构建业务案例; 清理数据; 长期监控数据质量。 实施主数据管理:建议企业可以参考以下步骤实施主数据管理: 确定业务问题、定义主数据的主题区域; 确定当前数据源,确定处理数据的系统和业务流程; 制定主数据监管制策略; 匹配相同源或多个源中的重复可疑项,创建新的主记录,链接多个源中的相关记录,检查唯一标识的重复项; 管理关系、层次结构、分组,设计和实施主数据管理解决方案; 提升主数据管理质量以便更好地支持大数据分析,如同很多企业利用主数据管理清洗即将装载进数据仓库的数据一样,企业同样需要高质量的主数据提升大数据分 析;同样地,也可以利用大数据提高主数据的质量,如从半结构化、非结构化数据中提取数据丰富主数据等; 提高参考数据的质量(如各种代码)和一致性提升大数据治理水平; 在遵守隐私相关法规的前提下尝试将社交媒体数据和主数据进行关联。 图 2. 主数据管理成熟度

      企业在实施主数据管理的过程中,可以参考主数据成熟度模型。如图 2 所示,主数据管理大体可以分成 6 个级别:

L0 :初始状态

      主数据分散于各个业务系统中,每个业务系统独立管理和维护自己的关键数据,各系统间不共享这些信息,数据是不连通的。

L1 :列表模式

      通过手工方式维护一个逻 辑或物理的列表用来共享主数据,当各个系统或用户需要某些数据时可以索取该列表。列表的维护(增删改和冲突处理)由各部门工作人员通过一系列讨论和会议进 行处理。相比 L0,虽然各部门依然独立维护各自关键数据,但已经开始使用列表方式维护一个松散的主数据列表,满足各部门的主数据需求。L1 模式下,由于缺乏集中的基于规则的主数据管理,在数据量比较小时列表管理的方式是可行的,但当数据量较大时,数据维护的成本会很高,效率比较低。

L2 :主数据统一存储

      通过引入中央存储 库实现主数据的自动存储管理(中央存储库中的数据还是按照各个业务系统分开存储的,没有统一整合在一起)。中央存储库此时也被称为主数据主机 (Master Data Host),并通过一个“打包应用”(MDM 应用程序)对外提供数据访问功能,当需要对主数据进行增删改时,外部应用(请求发起端)将请求“打包应用”更新中央存储库中的数据,并调用数据所有者所在 的应用(通过接口)来更新对应的数据。

      在 L2 阶段,规则管理、主数据质量管理和变更管理都需要额外定制,打包应用并不提供相应功能,外部应用需要了解所有数据所有者的业务逻辑和数据结构等。比如当某 外部应用(比如呼叫中心)需要增加一个客户,该外部应用将提交一个事务,请求中央存储库添加数据,并请求数据所有者增加一个客户条目,中央存储库添加完数 据后将通知外部应用。在 L1 中,数据变更是基于手工模式,在 L2 中数据变更会自动完成(需要通过具体技术实现标准流程)。在 L2 阶段,各个外部应用需要能够了解基本的业务规则(元模型)以便访问主列表并与主列表进行交互,并且各个外部应用有责任坚持数据管理的原则和规程。

L3 :主数据统一管理

      在此阶段,中央存 储库将打破各业务部门组织疆界,使用各业务系统都能接受的统一数据标准(统一的元模型)建立和维护主数据。主数据的统一管理意味着构建了一个通用的面向所 有业务的平台,此时中央存储库作为一个集线器(Hub)从多个业务系统整合主题域数据,使用集中和标准化的方法转换异构数据。对比 L2,L3 有以下改进:

在 L3 由于使用统一的数据标准,有效地解决了数据不一致的问题,避免了数据在不同的地方代表不同的含义,大大降低了外部应用访问数据的复杂性。主数据不再按照业 务条块分开存储,而是按照主题域集中存储和管理,打破了各业务竖井的组织边界。 在 L3 阶段,外部应用仅仅需要和集线器交互进行数据的访问和增删改请求,不再需要支持源系统定位和操作逻辑,任何与数据所有者(源系统)数据相关的分布式细节都 会被 MDM 集线器集中处理(集线器自动捕获主数据值的变更并同步各源系统相关数据)。 从 L3 开始支持一致性的主数据单一视图,开始应用数据质量规则进行数据清洗和错误纠正。 L4 :业务规则和策略支持

      在此级别引入 了对业务规则、流程和策略的支持,以保证主数据的完整性和相关性。比如医院通常会有多个应用系统来支持一个病人的护理,包括入院、房间和床位分配、监控设 备、化验、身体检查以及其他程序。当病人准备出院时医院需要保证与该病人相关的所有活动和资源都被结清。这就要求主数据集线器不仅要提供病人的详细资料和 所有基于房间(例如床位、监控设备、护理活动等)的详细信息,还要提供与该病人相关的诊疗、化验、身体检查和其他程序发生的费用列表。在 L4 阶段支持对规则和策略的扩展性支持,集线器以一个灵活可持续地方式支持任何面向业务的规则集合,例如一个商店经理更新一个产品的价格,主数据管理系统需要 和一个可信系统(例如商品管理系统)进行协商以便让规则生效。L4 支持规则集中管理,规则本身和相关处理是可以分开的,MDM 集线器需要保证规则是集中应用的,即便这个规则是在集线器外居住的。

L5 :高度自动化

      在 L5 阶段,主数据的管理是高度自动化的,当主数据记录详细资料被修改后,所有应用的相关数据元素都被更新,所有的消费应用和源系统访问的都是相同的数据实例 (之前的级别中,主数据是由各系统产生而不是 MDM Hub 产生的),本质上构成了一个闭环的 MDM:所有的应用系统通过统一管理的主数据集成在一起。所有系统看起来都是事实的同一个版本。相比 L4,L5 意味着 MDM 不是在一个应用内被特殊设计或编码的,主数据传播和供应不需要源系统专门地开发或支持。所有应用都清楚地知道其并不拥有或控制主数据,仅仅使用数据来支持 自己的功能和流程。L5 保证了一个一致的主数据主题域,定义“客户”和其他应用接受客户主数据业务规则变化实际上是一回事,移走了主数据的最后一个障碍:统一采用数据定义、授权 使用和变更传播。

IBM 主数据管理(MDM)

      IBM InfoSphere MDM 是当今市场上功能最强大的主数据管理(MDM)产品,处理完整范围的主数据管理需求和用例。为了给客户提供其 MDM 解决方案需求的最佳范围,提供了以下 4 个 IBM InfoSphere MDM 版本:Collaborative Edition、Standard Edition、Advanced Edition 以及 Enterprise Edition,其中 Enterprise Edition 版本包含了其它三个版本所有的功能。主数据管理与各个业务系统的关系与定位如图 3 所示:

图 3. 主数据管理与业务系统的关系与定位

InfoSphere MDM Collaboration Server

      InfoSphere MDM Collaboration Server(MDMCS)在 V10 之前叫做 InfoSphere Master Data Management Server for Product Information Management(MDM Server for PIM),目前最新版本是 V10.1,该产品在 V6.0 之前的版本曾叫 WebSphere Product Center,是从 Trigo Technologies 公司(IBM 2004 年收购)的 Trigo Product Center 衍生而来的。MDMCS 是一个中间件,提供了高度可伸缩的企业产品信息(PIM)管理解决方案,用于建立企业内部和外部的产品和服务信息的单个、集成且一致的视图,帮助企业缩短 销售时间,提高市场占有率和客户满意度,降低成本。通过使用 MDMCS 集中处理和优化产品数据,可以将有关的唯一内容传递给需要的业务系统、合作伙伴、客户以及个人,如图 4 所示,产品具体提供了以下功能:

灵活且可伸缩的存储库,用以管理产品单品、条目、位置、组织结构、贸易伙伴和贸易条款信息以及与这些信息建立链接。 帮助企业捕获、创建和管理主数据,为主数据提供建模工具。 具有灵活的数据模型和管理多层次结构的能力。 具有连接到离散系统的能力,支持与现有系统、各种应用程序、存储库集成,并保证主数据信息同步。 支持工作流程、可快速适应需求变化的业务流程。 支持与业务合作伙伴交换信息和保证信息同步。 具有一个细粒度化且易于扩展的安全性模型。 图 4. InfoSphere MDM Collaboration Server 功能

图 5. InfoSphere MDM Collaboration Server 体系结构

      如 图 5 所示,MDMCS 采用基于组件的体系结构,其组件包括:核心组件、集成组件和协作组件。核心组件主要由 API 层、业务对象层、基础结构层和存储器层组成,在 API 层可以通过调用 Java API 扩展 Collaboration Server,可以使用搜索 API 在 Collaboration Server 中搜索信息,还可以使用脚本 API 来扩展 Collaboration Server 解决方案(在 Collaboration Server V6 之前,脚本 API 是扩展解决方案的唯一机制);在业务对象层,可以使用数据对象对实例级别对象(可以是一天中执行操作最频繁的对象,如产品、SKU 和工作项等)进行建模、使用元数据对象为实现的结构(如目录和层次结构等)建模以及定义数据对象的结构(如定义项属性的规范)、使用用户建模对象来捕获企 业的用户模型(比如用户的报告层次结构、角色、用户、数据访问特权和权限等);在基础结构层,可以使用队列管理器往 Collaboration Server 外部发送文档、使用事件处理器在所有模块间分派事件、使用管理服务启停服务、使用 RMI 注册程序协调 RMI 服务间通信、使用调度程序服务执行调度作业(比如导入、导出和报告等);在存储器层,可以使用 Collaborative Edition 存储库(PIM 存储库)基于一组物理数据库表持久保存业务对象,使用文档存储器(一组物理数据库表和文件系统位置)存储扩展内容和未组织的内容如订阅源文件、报告和导出 作业输出等。

      集成组件主要由门户网站框架、定制工具、导入/导出和 Web Service 组成,通过门户网站框架可以将 MDMCS 与 WebSphere Portal Server 集成在一起;通过定制工具可以在 Collaboration Edition 定制用户界面;可以使用“Web Service”调用标准 Web Service 请求;导入/导出负责获取入局数据(导入)和生成数据(导出)。

      协 作组件由工作流引擎、数据编写 UI 和导入/导出组成,工作流引擎主要处理工作流程中捕获的与业务对象相关的事件;数据编写 UI 提供一组用户界面屏幕用来与数据对象(实例级别业务对象)进行交互,以指定和丰富为它们提供的数据以及设置它们之间的关联;导入/导出负责获取入局数据 (导入)以及生成数据(导出)。

      InfoSphere MDM Standard Edition

      InfoSphere MDM Standard Edition(MDMSE)在 V10 之前被称为 Initiate Master Data Service,是 Initiate 主数据管理的产品平台,Initiate 是一家专注于医疗卫生、政府等行业主数据管理产品和解决方案的软件公司,2010 年被 IBM 收购,并补充进 IBM 信息管理产品家族。MDMSE 是业内领先并被广泛应用的 MDM 软件,帮助政府、医疗、零售和金融等行业用户理解和信任其所拥有的数据,企业可以使用该解决方案来获得完整、实时、准确的主数据视图。MDMSE 产品以其灵活的数据模型,SOA 的标准架构,无侵略性、松耦合的集成方式,轻量级、易操作、快速实施部署等特点在政府和医疗领域的使用尤为突出。通过使用 MDMSE 可以快速识别和整合散落的人员、机构信息。MDMSE 提供了针对关键数据资产以及这些数据相互关系的单一视图,帮助企业快速集成现有同构或异构数据源和应用系统,对数据进行统一的转换、清洗、匹配和链接等操 作清除数据的不一致和重复,丰富完善现有数据,保证数据的质量和完整性,提供真实可靠的主数据。MDMSE 平台体系结构如图 6 所示:

图 6. MDMSE 平台体系结构

      针 对医疗卫生行业的病人主索引、居民健康档案、居民主信息记录等需求,MDMSE 可以快速形成 360 度视图,高效、准确识别和管理来自不同数据来源的人员、机构信息,消除重复和不一致的数据,解决在异构系统当中“居民”、“客户”、“病人”、“员工”、 “组织机构”等面临的信息一致性、完整性和准确性问题。MDMSE Healthcare 主要包括以下功能:

      Initiate Patient Hub: 实现了医疗卫生行业的病人主索引(Enterprise Master Patient Index,EMPI)解决方案,提供符合行业标准的病人信息模型并提供灵活的对外服务接口。

      Initiate Provider Hub: 提供针对医疗卫生行业提供者的主数据管理,比如医生和医疗机构等,可以快速的与现有系统和数据源集成,准确匹配并关联不同的提供者,形成单一信息视图。

      Initiate Exchange: 连接各种医护环境,为服务点提供随时获取信息的便利。

      InfoSphere MDM Advance Edition

      InfoSphere MDM Advance Edition(MDMAE)在 V10 之前被称为 InfoSphere MDM Server,主要用来实现和维护跨企业的单一版本的真实数据,消除信息竖井,控制企业内最重要最需要共享的信息资产。MDMAE 主要用于管理客户主数据,也可以管理合约和产品等,具体来说可以实现企业内重要的主数据实体,如客户、产品、供应商、员工、潜在客户、代理商、项目、产品 捆绑、部件和协议等管理,实现主数据实体的单一视图,帮助用户减少信息错误,消除重复数据,提高企业运营效率。MDMAE 产品部署灵活迅速,其匹配和关联能力业内领先,并具有全面管控功能,可以满足行业内和行业间广泛的业务需求。企业可以使用该产品内嵌的智能和对数据的洞察 力,提升销售能力,改进市场推广效果并提高财务运营能力。MDMAE 作为一个完整的主数据管理方案,可以帮助企业完成客户整合、客户管理、客户流程优化、以客户为中心的转型等短、中、远期业务目标。

      MDMAE 是一个企业级应用,为参与人(Party)、产品(product)、账户(account)和位置(location)提供事实的单一版本,提供多渠道 管理的环境,通过统一前后台系统提供客户信息的单一版本。Party 可以反映任何合法的实体,无论是个体还是组织;Product 既包括物理存在的货物,也可以是任何服务;Account 包括期限和条件,以及相关的各种关系;Location 既可以独立存在,也常常与其他主数据域共存;主数据管理需要关注的不仅仅是这些域,还包括它们之间的各种关系。MDMAE 使用基于组件的可扩展标记语言(XML)、J2EE 平台和 EJB 架构,以便快速和其他系统集成,并提供充分的灵活性和扩展性。如图 7 所示,面向服务体系架构 MDMAE 集成了强大功能,提供业务服务、通用服务、管理服务、业务逻辑与规则和扩展服务等。通过强大的数据管理功能用户可以建立可信信息,提供预先构建的数据集成 和数据质量控制;通过业务服务组件,使用预先构建以及定制的业务服务与所有消费主数据的应用和业务流程交互,从不同领域(domains)集成数据;所有 业务模型拥有一个相似的结构,包括控制器组件和相关的业务组件等;所有持久性事务(那些修改数据的事务)都由事务控制器处理,而所有的读取和搜索则由查找 控制器(finder controller)处理。MDMAE 使用可扩展的数据模型支持多领域比如:Party、Product、Account 和 Location 等;用户可以自己创建定制领域,MDMAE 使用强约束建立和维护领域之间的关系。

图 7. InfoSphere MDM Advance Edition 体系结构

结束语

      本文详细介绍了大数据治理统一流程参考模型的第十步“定义度量值”、第十一步“主数据监管”,以及 IBM 在主数据管理方面的产品介绍,如 InfoSphere MDM Collaboration Server、InfoSphere MDM Standard Edition 和 InfoSphere MDM Advance Edition 等。在本系列文章的下一部分中 将重点介绍大数据治理统一流程参考模型第十二步“(狭义)大数据监管”、第十三步“信息单一视图监管”、IBM 大数据产品 BigInsights 和 Streams 以及 IBM 大数据治理方面的产品 InfoSphere DataStage、InfoSphere QualityStage 等。

 

相关阅读:

大数据治理系列七: 分析监管、安全与隐私管理和信息生命周期监管 banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限