banner

渐进可视分析:用户驱动的逐步探索分析

作者: 大数据观察来源: 大数据观察时间:2017-01-10 19:37:490

    可视分析通过视觉和交互的手段,可以有效地帮助人们提高数据分析的效率。一般来说,可视分析的流程是这样的:选择数据集,设置参数,运行分析算法, 获得完整的运算结果,可视化结果,进行可视分析(如图1所示)。然而,人们正面临着数据量越来越大的困扰,这将大大增加算法运算的时间。同时,随着分析任 务越来越复杂,算法的复杂度也在逐步增加。     在传统的可视分析流程中,人们需要很长的时间来等待算法运算,也许是一小时,也许是几天,甚至可能几个月。但是,如果结果不理想,需要调整参数,那么分析 人员不得不再陷入漫长的等待。这篇论文提出了不同于以往的可视分析流程。如图1所示,新的流程在算法运行的过程中,就显示算法的中间结果,分析人员可以随 时来分析这些中间结果并对运算过程进行干预。例如如果发现参数不合理,便可以立即调整参数,避免了漫长而无用的等待。

 

图1 传统的可视分析流程与渐进的可视分析流程

 

      那么,应该如何达到这样的目的呢?这个工作基于 KDD’02 上提出的 Sequential PAttern Mining (SPAM) 算法, SPAM 是一种频繁模式挖掘的算法,算法步骤如下图所示。 SPAM 算法递归地扩展模式,如果一个模式的支持度大于阈值的话,将往下扩展。例如图中 Z 的支持度为3,便扩展出 Z-X 和 Z-Y ,其中 Z-X 的支持度为1,小于阈值2,因此不再扩展,而 Z-Y的支持度为2,将会继续扩展。本文对 SPAM 算法做了一些修改,改为广度优先搜索,这样便可以在算法运行中得到中间结果,实时地进行展示算法运行过程。这样用户可以在算法运行过程中进行干涉,例如可 以调整搜索队列的顺序,提高用户感兴趣节点的优先级;同时用户也可以将不感兴趣的部分进行剪枝。

 

    可视化界面可以分为三个部分:列表视图 (List View),树状视图 (Tree View) 和 散点视图 (Scatter View)。列表视图展示了排名较高的模式,用户可以自己选择排序的依据,例如根据相关性、支持度等。当用户选择某一个模式时,其前缀会用浅蓝色标出。 树状视图也很容易理解,它用树状的方式展示了一个模式。同样的,选中的模式的前缀也用浅蓝色标出。

 

图2 系统界面

 

      散点视图则将当前发现的模式中 Top n 的模式表现在散点图上。散点图可以表示三个维度的信息:横轴、纵轴分别代表一个维度,点的大小映射另外一个维度。这三个维度用户可以自己设置。同样的,浅 蓝色的点表示被选中模式的前缀,并且他们用连线连接起来。由于散点图中的点只能显示Top n的模式,因此为了能够展示所有模式的大致分布情况,散点图的背景上用热度图表示了所有模式的分布。

    此外,系统中可以查看到当前运行参数,可以对参数进行调整并重新运行。同时用户还可以禁止一些模式继续扩展。

    这个工作给我们展示了如何在运行过程中渐进地进行可视分析。这样的工作流程可以大大避免分析人员花费大量时间等待不理想的算法运行,大大提高了分析效率。

 

[1] Charles D. Stolper, Adam Perer, and David Gotz. Progressive Visual Analytics: User-Driven Visual Exploration of In-Progress Analytics. IEEE Transactions on Visualization and Computer Graphics, 2014.

banner
看过还想看
可能还想看
热点推荐

永洪BI
更敏捷、更快速、更强大

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.1
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限