数据挖掘的商业应用案例

作者: 大数据观察来源: 大数据观察时间:2017-06-18 13:22:360

近些年随着大数据的火热，数据挖掘也更加引起人们的重视。因为，大家越来越认识到，大数据本身并不能直接给人们带来什么收益，只有运用像数据挖掘这样的技术对大数据进行深入分析，才能得出对人们更有用的东西。如果大数据不能得到深入分析，那大数据只能是占用宝贵的存储资源和浪费昂贵管理成本的一堆大垃圾！

虽然数据挖掘的很多技术源自理论界和学术界的一些研究成果，但更有价值的是这些技术能在商业上得到成功的应用。而数据挖掘在理论和实践之间有着相当大的距离和挑战！商业数据挖掘应用在北美地区开展得比较早，应用行业和范围也比较广泛，北美的业界也积累了不少的宝贵经验。下面，就根据我们在北美开展的商业数据挖掘应用的经历，给大家介绍一点相关经验。

数据挖掘的主要技术和工具

数据挖掘技术的主要原理包括人工智能、模式识别、机器学习、进化计算、信号处理、统计学、以及更广泛的一些数学建模方法等，同时也借鉴了许多其他学科的思想和优化技术。数据挖掘常用的技术，主要包括：

·离散数据分类：是对离散的目标变量进行分类；

·回归预测：是对连续型的目标变量进行预测分析；

·聚类分析：是所谓的“物以类聚，人以群分”的思想，探索数据自然的分组，往往用来探知未知数据的分布规律；

·关联规则：探索事物间并发现象的规律，简单举例，就是想要找到是否A事物的出现会导致B事物的同时出现这样的规律；

·相关分析：探索数据的多维变量之间的相关关系，包括变量实相关和变量虚相关，以及线性（非线性）完全相关、不完全相关、不相关、正相关、负相关等很多种关系；

·特性抽取：是寻找事物主要特征的一种方法，形象地说，就是哲学中的抓事物的主要矛盾。

当然，数据挖掘的技术还远不止这些，例如，还有对数据进行相似性的分析、对数据进行异常点的分析、对数据进行趋势性的分析、对数据进行序列分析、对数据进行时间分析、对数据进行空间分析等等。

总结以上，我们说数据挖掘最终目的的就是寻找事物间的关系、抓取事物的主要特征、探索事物隐藏的规律。

现在数据挖掘常用工具包括两个大类，分别是商用数据挖掘套件和开源数据挖掘软件，以下是一些在北美地区常用的数据挖掘工具。

商用数据挖掘套件：

• SAS Enterprise Miner

• IBM SPSS Modeler (SPSS Clementine)

• Oracle Data Miner

• IBM Intelligent Miner

开源数据挖掘软件(Open Source)：

• Weka

• KNIME

• RapidMiner

我们体会，数据挖掘最关键的其实不只是算法，还有很多环节，如业务理解、数据的建模与准备等，也是数据挖掘商业应用成败的关键。在商业项目中，数据挖掘算法所占比例是很小的。对业务知识的了解，在数据挖掘中是很重要的工作。数据挖掘商业项目的要求比较高，真正想要做好并不容易。想要做好商业数据挖掘，就必须要求对业务了解相当深入。数据挖掘要求项目团队对业务深入了解，同时也要求项目团队具有丰富的数据挖掘的应用经验，有些项目对数据挖掘的技术和方法的要求也很高。只有这样具备诸多条件，才有做好数据挖掘商业项目的一定保障。

数据挖掘在金融上的应用

1、基于数据挖掘的信用卡借记卡防欺诈系统

1.1 系统架构

我们看一下信用卡借记卡防欺诈系统系统的架构。首先银行卡类业务中，有刷卡系统、刷卡中心，卡的信息要送到数据仓库当中。还有商户的交易系统，也需要把他们的交易数据送到数据仓库当中。系统将这些数据每天定期地转送到数据仓库当中，然后进行OLAP建模分析和创建智能报表，还可以建立预测模型。系统将预测模型生成的分析报告送到业务分析员手中。关键环节还是业务分析员分析阶段。业务分析员把挖掘的结果进行分析和总结，再根据业务知识，自定义形成一套规则，经软件人员将这些规则嵌入到相应的交易系统和刷卡管理系统当中，从而对每笔交易进行评估和预警。如下图一。图一：信用卡借记卡防欺诈系统系统架构

信用卡借记卡防欺诈系统的基本原理就是这样，但是要做成非常成熟的商业应用系统，其实不太容易，系统既不能错误地将正常交易侦测为异常交易，也不能漏掉真正的异常交易行为。

1.2 数据模型

我们再详细分析一下银行卡系统的数据模型。银行卡类的数据是交易型的数据，它们大多是第三范式的，基础上是按事物的关系建立模型。信用卡和银行卡交易系统数据模型如下图二：

图二：信用卡和银行卡交易系统数据模型

接下来，我们把它们变换到信用卡和银行卡数据仓库中的数据模型。这个模型是个典型的数据仓库应用数据模型。实际上，数据仓库和数据挖掘在数据层面有的时候是相关的，但很多时候相关度不是很大。数据挖掘项目需要专门为数据挖掘做数据准备，当然有时也可以直接应用到数据仓库中的一些数据。

如下图三，在我们这个数据仓库应用数据模型中，表中的“D”是指维度表（Dimensional Table），表中的“F”是指事实表(Fact Table)。图中的这个模型是一个雪花形的结构，我们称之为Snow Flake Model。总之还需要再次数据变换，将数据变换成满足我们要用的数据挖掘算法和方法的结构和形式。

图三：信用卡和银行卡数据仓库数据模型

1.3 预测模型

通过运行预测模型对进来的交易数据进行欺诈评估。我们的预测模型可进行欺诈报警，通常能甄别出80%的欺诈案例，以供业务分析员进行分析。高精准的数据挖掘模型为企业按照自己的交易数据定制出专用的欺诈侦测模型，这些模型是在线实时的，它为客户提供了实时评估报告和实时反欺诈交易的能力。

2、支票风险控制系统

Check Kiting（挪用支票周转，用空头支票骗取钱财），即利用支票进行恶意透支，是西方国家很常见的金融诈骗，银行每年因此损失巨大。当今，各大银行除了加强制度管理外，还纷纷采用数据挖掘的方法加大风险控制力度，从而收到了显著的效果。现在，预测模型已经成为各银行不可缺少的支票风险控制手段。

国外用支票的地方比较多，如果有人要恶意透支，银行除了要有个管理制度控制以外，还要有个用预则模型来评估每笔交易、发现问题的手段，随着支票越来越广泛的应用，相应的风险控制也必须要加强。

支票防欺诈系统系统的流程简要如下。金融交易系统A把支票开出来后送到另外一家银行，然后有个银行套现的过程，这个过程把数据送到数据仓库，通过建立的数据挖掘模型的评估，系统将此类评估集合在一起，生成批量预测报告，并将预警送到业务分析员，业务分析员通过将业务知识、技术模型和业务规则结合起来，再对每笔交易进行评估和预警，以判断每个支票是否存在空头支票的可能性，以及存在可能性有多大。

数据挖掘在医学上的应用

在医院的业务系统当中，有很多的业务数据是孤立的。我们把它们集成起来，形成医学临床上和科研上的专用数据集。我们可以通过数据集成，然后应用一些数据挖掘技术来帮助我们进行科研。这个工作的挑战性也是比较大的，我们做数据挖掘技术的人士，还需要深入学习和了解医学知识才能做好这件事。医学数据仓库集成了很多业务系统的数据，包括医院运营系统，临床信息系统，病案信息系统等。我们把它们的数据集成起来，形成一个专用的科研和临床方面的的数据仓库，基于数据仓库的数据分析系统涵盖了很多功能，包括数据探索、数据挖掘、数据筛选、科研分析，统计学分析等应用工具。

我们举个数据挖掘在医学上应用的例子。医学家需要研究冠心病的一些特征和规律。医学的业务知识发现，冠心病除了表现出传统的典型特征外，还呈现出可能是一种慢性炎症的特征。于是医学家将重点研究冠心病有关慢性炎症的一些数据，其中他们发现一些生理指标呈现一种紧密的相关关系，并且在多个生理之间有可能存在一种数学模型。于是，医学家寻求我们数据分析专家的帮助。数据分析专家应用回归预测模型对这些生理指标进行分析。通过大量的数据挖掘实验和算法的不断变换与尝试，我们创建了基于这些生理指标的预测模型，模型的综合精度达到86%，它是指比朴素预测模型的准确率高出了86%，具有很好的拟合精度，如下图四，见仪表盘和预测残差图。

图四：预测模型

我们从大量的医学数据中发现了一个多指标参与的预测模型，说明数据中蕴含着这样一个模型、一个规律。这样的模型和规律不是人为创造出来的，而是挖掘出来的、探索出来的。数据挖掘模型有时可以表达为一个是数学模型，有时也可能是一个非数学的模型，总而言之它是客观存在的。医学家根据数据挖掘得到的模型和结果，结合医学专业的知识和分析，揭示了冠心病重要的新的特征和规律。

总而言之，数据挖掘是抽取潜在的、有价值的知识的过程。通过以上案例我们发现，潜在的知识不是通过传统的简单运算得到的，它是一个复杂的过程，包括对业务知识的理解，对数据的变换与准备，应用恰当的算法，不断实践、不断探索，最终发现有价值的规律。数据挖掘为各行各业提供了一个新的分析方法，新的深入理解数据、理解业务的手段。数据挖掘，我们也称之为数据的智能计算，是博大精深的，它涉及到的每一个方面展开来都是很深入的。数据挖掘技术在商业上的成功应用，是长年的项目积累形成的，没有捷径可走，需要我们脚踏实地的不断探索!

有关问答

问：老师讲的很多，侧重技术方面很多，咱们公司是做成熟的数据挖掘商业产品还是做数据挖掘服务？

答：我们两方面都做，既做数据挖掘商业应用产品，也提供数据挖掘技术服务，两方面都有。

问：您讲了很多案例，有没有从大量文本信息中进行数据挖掘的？

答：有文本挖掘的案例，但相对于结构化数据挖掘，文本挖掘还是少一些，更多的是挖掘的大量关系型数据，但随着大数据的不断发展，文本挖掘也会越来越多的。

问：有没有图像方面的数据挖掘，包括犯罪案，像行为犯罪的预测模型？

答：有的，但是比较少，更多挖掘的是非图像数据方面，因为这方面的技术和方法比较多，也比较成熟。现在数据挖掘的技术还再发展，很多新的方法会越来越多，肯定的是，我们数据挖掘的包括面会越来越广，包括你提到的问题，应用的也会越来越多。很多新的问题和需求都已经提出，我们讲，数据挖掘的技术还是有很大的发展空间的。我们现有的技术能很好地解决一些问题，但还有很多要待完善，例如流数据，大量的流数据产生的时间是非常快的，数据量很大，实时性很强，解决起来比较困难。

问：我们做数据挖掘的有一个问题。我们做数据挖掘的人，这种公司将来的生存前景在哪里？我以前是做SPSS的，在数据挖掘业界是NO.1，现在SPSS公司被IBM收购了。而且Oracle也在做他们自己的数据挖掘工具和应用，那么我们这样的企业，它的前景在哪里？我们的出路在哪里？

答：我个人觉得，我们和大牌公司不是同一个概念。他们无论是IBM公司还是什么公司也好，是全球的跨国企业，他们的业务范围比较广泛，很多方面都是做系统工具的，如IBM 的Intelligent Miner、SPSS Modeler、Oracle的Data Miner等。我们是做什么？我们讲，数据挖掘的应用是需要定制化的，各行各业大量的数据挖掘项目需要定制化的工作，更需要专门的懂得专业知识和业务知识的有经验的数据挖掘技术人才，这才是数据挖掘的关键因素！大公司主要提供的是一种工具，我们提供的是知识、智慧和解决方案，我们和他们没有冲突。

问：从技术角度来讲，数据挖掘和统计学有本质区别么？

答：我们认为，二者是一个交叉的关系。数据挖掘涵盖了很多方面的技术，其中就包含一些统计学的东西，有一部份统计学的东西可以用到数据挖掘方面来。数据挖掘和统计学有交集，但侧重点不一样。统计学是什么？统计学的一个主要原理是从样本来找规律，从小的样本、小的数据来推到大的数据、整体的数据的特征，这是它的核心的概念。数据挖掘相反，它是从大量的数据里直接找规律，但是实践中，针对不同的情况可以用不同的技术来解决某一个问题。总之，数据挖掘和统计学是交集的关系，不是涵盖的关系。

问：数据挖掘是不是依赖于数据仓库？但是您放的PPT里很多都有EDW（企业级数据仓库）在里面，数据挖掘什么时候依赖于数据仓库？什么时候不依赖？

答：我们讲概念的时候，把这几个技术合在一起讲了。但是实际上，在商业上应用项目当中，数据挖掘与数据仓库往往是相对独立的。数据挖掘需要的数据是有它的特殊需求的，数据可以来源于数据仓库，也可以直接从数据源里来取，并不是说是二者是必然的关系，也不是说先有数据仓库再有数据挖掘，所有的数据挖掘一定基于数据仓库，并不是这个概念。

问：现在很多东西都是混淆的，数据挖掘和OLAP分析，它们都在做PTI报表、仪表盘报表，数据挖掘和OLAP分析以及它们上面展示的报表是什么关系？

答：OLAP分析是个一个多维度的分析结构，它的目的是为了商业智能报表，它的展现层或者物理层是OLAP的结构，在数据存储结构上，OLAP可以是关系结构的也可以是多维结构的，OLAP表现层就是我们的智能报表。现在智能报表（BI）有很多工具，有基于层次的，也有基于多维度的。OLAP和BI可以归为一类，目的都是为应用报表的，它们的独立性挺强的。另一概念是数据挖掘，数据挖掘主要解决一些BI不能解决的问题，比如销售，哪些是有价值的客户？结果是通过算法从数据中挖掘得到的，可能完全用不到OLAP去展示。数据挖掘和OLAP分析是两个角度，两个技术。我们认为，数据挖掘可算为一个分支，OLAP和BI可算为一个分支，数据仓库也是一个分支。数据仓库提供一个数据层，有业务需求，有一个分析目标，我们才设计它，然后在数据仓库之上上，我们再做OLAP、BI报表。数据挖掘呢？它和数据仓库是交集，它和BI通常也是交集的关系。

本文为作者原创，转载请注明出处。

看过还想看

可能还想看

热点推荐