banner

一小时了解数据挖掘⑥数据挖掘的评估和结果可视化展示

作者: 大数据观察来源: 大数据观察时间:2017-06-27 16:27:310

接前面系列5篇:

一小时了解数据挖掘①:解析常见的大数据应用案例

 一小时了解数据挖掘②:分类算法的应用和成熟案例解析

一小时了解数据挖掘③:详解大数据挖掘の分类技术

一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

数据挖掘的评估

评价一个数据挖掘系统主要从准确性、性能、功能性、可用性和辅助功能五个主要方面来考虑。

准确性

评估数据挖掘系统最关键的因素是准确性。通过在数据挖掘系统上执行算法做的预测和分类的准确率,我们可以判断系统中的算法是否合理,数据采集是否全面以及数据预处理工作是否完善。

性能

该系统能否在我们需要的商业平台运行;软件的架构是否能连接不同的数据源;操作大数据集时,性能变化是线性的还是指数的;运算的效率到底怎样,能否符合实际应用需求;是否基于某种开源框架;是否易于扩展;运行的稳定性等。

功能性

该系统是否提供足够多样的算法;能否避免挖掘过程黑箱化;软件提供的算法能否应用于多种类型的数据;用户能否调整算法和算法的参数;软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等。

可用性

系统的用户界面是否友好;可视化效果是否好;是否易学易用;系统面对的用户是初学者,高级用户还是专家;错误报告对用户调试是否有很大帮助;应用的领域是专攻某一专业领域还是适用多个领域等。

辅助功能

是否允许用户更改数据集中的错误值或进行数据清洗;是否允许值的全局替代;能否将连续数据离散化;能否根据用户制定的规则从数据集中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将一次分析的结果反馈到另一次分析中,等等。

对于不同的数据挖掘算法,我们采用的评价方式是不同的。

在【一小时了解数据挖掘③:详解大数据挖掘の分类技术中】我们提到了用来评估分类器的混淆矩阵(Confusion Matrix),这里的图1所示是混淆矩阵的另外一种 表现方式。

图1:混淆矩阵示意图

banner
看过还想看
可能还想看
热点推荐

永洪BI
更敏捷、更快速、更强大

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.1
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限