数据科学与数据可视分析简介_北京永洪科技BI大数据分析

各位专家、各位领导大家下午好。

我今天主要给大家介绍一下数据科学与数据可视化。感谢永洪科技给我这个机会，能够和大家一起来在这里交流一下我们学习的心得。

刚才已经听了各位领导专家讲了很好的落地的大数据的案例。我也很有感触。我这边可能比较务虚了。我是来自山东大学计算机学院，也是教育部数字媒体研究中心的研究人员。

我们现在正处于大数据时代，数据与信息的爆炸我们都已经深刻体会到了。

在2015年的乌镇第二届世界互联网大会上，习近平主席做主旨发言时强调：

以互联网为代表的信息技术日新月异，引领了社会生产新变革，创造了人类生活新空间，拓展了国家治理新领域，极大提高了人类认识世界、改造世界的能力。互联网是人类的共同家园，各国应该共同构建网络空间命运共同体，推动网络空间互联互通、共享共治，为开创人类发展更加美好的未来助力。中国正处在信息化快速发展的历史进程之中，中国将大力实施网络强国战略，让互联网发展成果惠及13亿多中国人民，更好造福各国人民。

李克强总理在2016年中国大数据产业峰会暨电子创新发展峰会上指出，大数据、云计算、物联网能让欠发达地区把无生有。什么意思？大家知道贵州是中国的一个大数据集散地，它主要在那里建了很多大数据的设备，许多企业都到那里去入驻。贵州原来是我们国家的欠发达地区，现在想借着大数据这个东风加快它的发展，并且已经取得了初步成效。

第二我们有能力利用“新经济”模式保持中国经济持续中高速发展。

大家也看到了，这两年，尽管中国经济已经不是两位数的增长，但是仍然是世界经济增长的主要引擎，对世界经济贡献大家有目共睹。

共享数据才能让数据的作用无限放大，发挥作用。刚才几位专家领导都讲过的案例很多就是共享数据。

总理说：“人在干、数在转、云在算”。我觉得总理总结非常好。人在活动也好，生产也好，生活也好，都会产生各种数据，这就是“人在干”，各种产生的数据在我们的网络空间也好，在人类社会里面也好，都在流转被应用。数据流转和应用的技术和设备就是“云”。这就是李克强总理对我们中国大数据发展的一个总结。

据最新的中国互联网中心发布的互联网发展状况报告，截止2016年12月，我国网民规模达7.31亿。普及率达到53.2%，手机网民占比达到95.1%，几乎人人都用手机上网。

“CN”注册保有量超过2000万，稳居全球国家顶级域名第一。

互联网推动服务型政府信息公开，上市公司互联网企业数量达到91家，总市值突破5万亿，中国的互联网企业在世界商业是有了相当的影响力。

中国企业信息化基础全面普及，互联网+传统企业融合加速。

什么叫大数据？讲一下大数据的定义，非常多，这里有一个比较形象的。

大数据就是要挖掘和整合一切有用的信息，为人类社会提供更好的服务。从自然的到社会的，到我们信息空间的。其实我们现在说的信息社会还没仍然有农业社会、工业社会、信息社会共存的一个时期。

大数据四大特点，我们这里加了一个C，4个V，就是价值密度低、快速、数据量大、多样性。还有一个就是复杂度。复杂度体现在各种各样的数据。有结构化的，有半结构化的，有非数据的。

我们处在信息爆炸的时代。到2020年，全球的数据总量大概要到42个ZB，无论是电信行业，还是传统企业，互联网企业，电商企业，现在都在充分利用大数据，同时也在产生着大数据，所以大数据的产生是无限的。

这个是一个眼花缭乱的大数据市场。各种从数据的获取到数据的处理、存储，到数据的分析，到数据应用，到最后支持政府也好，各类也好，企业也好的决策，那都是整个一条生态链。

我们现在大数据的企业都在讲生态，这个数据分析也是个生态，有很多处理工具。

云，是大数据密不可分的伴侣。应该说大数据这个口号在2012年喊的比较响，之前是云计算。再之前，有个网格计算，高性能计算机连接起来，然后就是云。后来特别是奥巴马获得了连任以后，大数据的呼声越来越高。云主要是硬件。

软件是大数据引擎。百度前人工智能专家吴恩达曾经说过，软件算法是引擎，大数据是燃料。

刚才是我们简单泛泛介绍一下大数据时代的含义。

下面我们看数据科学。其实数据科学这个词出现的还不算太早，应该在2012年左右，就有人提出，但那时候还没有太多影响，就是在学术刊物上有。但现在应该是越来越被大家所熟知。前两天我去开大数据高等教育研讨会的时候，很多高校申请了数据科学和大数据专业，我记得去年第一批是3所，今年第一批是32所，未来一两年内，我觉得很多学校都会去申请数据科学这个专业。

数据科学就是首先是将现实世界映射到数据世界，并在数据世界中，研究现实世界的问题，并根据数据世界的分析结果，对现实世界进行预测、洞见、解释和决策的新型学科。第二，数据科学是以数据，尤其是大数据为对象。并以数据统计及数据可视化等为基础，主要研究数据预处理、数据管理、数据计算等交叉学科。第三是以实现数据到信息，数据到知识，再从数据到智慧的这个跃迁。刚才已经有专家讲过智慧城市，智慧企业，智慧家庭。近一年来人工智能大人，其实很多人工智能所体现出来的智慧还是以大数据为基础上来获得的。第四是要在大数据时代面临的新挑战、新机会面前提出新思维和新方法，包括新的理论，方法、模型、技术、平台、工具、应用的一整套东西来应对。所以这是数据科学的目前是被认可的一个定义。

数据科学的主要研究的内容有，数据的存在性，我们说数据是什么。当然重点有几个数据的策动，怎么度量它，时间，数据相信，数据分类、数据百科，稍微有点学术味道。

第二，实验和逻辑推理方法研究，建立数据科学的实验方法，假设的理论体系，并通过这些实验方法和体系开展数据自然界的探索研究。

我们知道生活的有社会有自然，现在又有个信息空间，现在叫数据界，从而认识各种数据的类型状态属性，以及形式的变化。数据有什么变化？数据有什么属性？自然结合人类行为。刚才电信运营商的老总也说过，我们先要通过手机信息的获取，获取人的行为特征。

另外还有领域数据的研究，包括我们看领域数据有脑科学数据、行为科学数据、生物数据、气象数据、金融数据、市政地理，地理数据等等，这只是一部分。

数据资源的公开，数据资源的开发利用和方法研究。我们人类政治和经济都将依赖于数据资源。刚才马先生也说过，农业社会是以土地为资源，工业社会是以能源为第一资源，现在新社会以信息为主，现在是以数据为资源。数据资源将成为我们最重要的资源。

好，数据科学的这样一张简单的图一般来研究什么？第一首先研究数据，数据是什么样的，数据模型，以及数据科学的目的和研究基础，理论基础，研究内容，基本流程，主要原则。

数据科学项目，如何来定义数据科学项目，既然数据科学出现了，很可能会申请各种各样的数据分享。我们现在企业的公共的这些项目，是否能够挂上数据科学相关的名词？我们都还要研究，从数据角度来讲，这两条基础理论的线，有它的数据内涵与特征，新的理念，新的术语。数据科学家他的角色是什么，能力又是什么，从长远目标是什么，还有团队协作。但是案例很多了，其实现在数据科学的案例太多了。

我们看数据不等于数值。大家知道，我们现在所说的数据，是由数字、文字、图形与视频，还有图像、多媒体动画以及各种媒体等组成了数据基本的内容。

数据相对来说是比较粗的，通过一定的加工，就变成信息，信息稍微细一点。对信息再加工，就变成知识，最后要产生相应的价值。

我们看数据量级。大家知道1KB等于2的10次方B，我们现在一个电脑硬盘就有一个TB的数据容量，一个大的互联网企业产生的数据大概是PB级。当然，世界上的级别大概在ZB级，ZB级是2的70次方的B。YB是2的80次方，NB是2的90次，DB是2的100次方，这是数据的量级。

数据模型，我们知道数据有各种数据，我们从用户角度，比如企业从用户角度，它看数据怎么看，业务员怎么看，IT人员怎么看，这是数据的基本的模型，我们从用户角度来讲，所谓各种的概念模型，各种文档、模板、业务流程、面向对象、模型等，这是指在数据源处理方面的。

第二个是数据科学家视角。当然这个数据科学家可以是数据工程师，也可以是数据分析师，他们通常要做一个转换，这是有一点技术，关系模型，早期的结构化数据，层次模型，网状模型。Key-value，现在Hadoop等等，Key-document、Key-column和图模型。

现在大数据的时候，我们前几年喊的比较响的，Hadoop这个平台，主要是以Key-value的形式来处理在一些结构化的数据。

从机器视角看，技术主要是数据的存储和在里面的运转，一个数据从源数据，我们拍个照、说段话、或者说我们制作一个表格，工程技术人员要把它转化成机器能够识别的数据形式。

这张图我觉得是比较好的图，我们讲数据有维度，当然这里我们说的数据维度和高维数据还不是一回事，这指的是我数据分成这个三维图。第一个是数据的结构化维度，就是结构化的、半结构化的、非结构化的。我们都知道，我们现在的视频、语音都是流视频，是非结构化的。原来关于数据库的是结构化的，关于社交网络的一些描述可能是半结构化的。

第二个是数据的加工维度，从原始数据到我们产生的信息、知识、智慧，这样多次加工产生的数据的结果。我们说打了谷，去掉皮就是米，米可以做米粉，做完米粉可以做汤圆或者面包。就是这种加工，加工越多，可能这个单位量级的数据价值越高。

还有就是第三个是抽象程度。平时我们日常生活中涉及到的数据，比方说我们拍个照，聊天这个数据都是粗糙的，我们要把它转换成机器能够识别的数据，我们要定一些所谓的元数据，这可能是我们定义数据的数据，它相对来说更具有普遍性，就是我们说面向对象里面所谓的类，是这个意思。

我们看看数据科学内涵与特征，不同学科对大数据的理解。因为我是计算机科学出身，计算机科学的人认为主要是现有的计算能力。大数据之所以大，Big Data之所以喊出来，就是因为原来的关系数据库处理的能力不能实现，所以才叫大。这时候又发展出来一套处理大数据的计算机，集群分布式的处理方式，当然也有软件。当数据量、数据复杂程度、数据处理的任务要求等超出承受能力的时候，称之为大。在计算机领域里面喊大数据是这种原因。

第二个统计学。大家知道大数据和统计学是密切相关的。原来我们知道，其实机器学习，很大一部分机器学习的理论是由统计学家做出来的。但是当时发展出来那些公式，都是在假设样本比较小的，我们说抽样检验，以及6西格玛、正态分布，均方差等等，这些都是统计学家的研究的。为什么？因为当时要获取的成本太高，也没有那么多数据。

但是随着这几年IT技术发展，硬件成本下降了。目前互联网的发展产生了大量数据。我们看，当能涉及全部个体的数据的时候，并且计算能力足够大的时候，就不用抽样了，我们可以直接计算。

所以，现在有人在说，有了大数据的处理能力以后还需要继续统计学家吗？说统计学家没用了。有一句话叫算力，后来我们叫计算能力，计算能力强了，可以完全使用个数就行。

机器学习现在是大热，非常非常热，但是如果没有大数据，机器学习也获得不了这么大成就。大家知道最热的就是深度神经网络，如果没有大数据喂它，一般的小企业是玩不起深度神经网络的。现在成果都是在互联网公司，无论是BAT，还是一些大的公司里面，主要是他们在做。为什么？有大量数据去为它训练各种神经网络。社会科学、数据规模和项目，我们知道原来社会科学主要靠发放调查表，用打电话来调查。现在可以通过网络的形式，手机的发送形式来获取样本。

其实各个角度，大数据的定义或者大数据的理解都不完全一样。

我们看大数据时代，基于数据的科学工程研究的十大变化。

研究范式，我们现在从第三范式、第四范式。

大家可能也听说过，科学研究到目前为止发展成了四个范式。

第一个是观察，观察就是通过关注天象，关注自然现象获得一些经验，获得一些知识。

第二个就是通过实验来研究自然和社会。

第三个是理论，我们现在还是理论范式。

现状转向所谓的数据范式。

当然就算是在现代，高科学研究的话，观察、实验、理论、数据、都离不了。

我们有时说只需数数，数数是一种什么活动？就是一种观察。

数据的重要性，原来作为数据资源，现在作为数据资产。

方法论，原来基于知识的，现在是基于数据的。

数据分析方面，从统计学到数据科学。其实数据科学涵盖了统计学，后面有一个图，涵盖了统计学，涵盖了计算机科学。

计算智能，原来是比较复杂的算法，现在是比较简单的算法。

所以大家看，随着各种工具的发展，不远的将来可能人人都成为数据的科学家。

管理目标，业务的数据化，现在要变成数据的业务化，从数据上去推广，去发展业务，原来是要把业务变成数据，当然我们知道早期把系统建立起来就是业务数据化。后来发展成了数据仓库，数据集市，就把数据变成了资产，然后去推动业务。

决策方式，原来是以目标驱动，现在我们以数据驱动。

产业竞合，以战略为中心，以数据为中心。对数据复杂性的认识，不接受复杂性，我们说统计也好，早期的社会科学也好，对数据复杂性都会有一些简化，现在可以接受数据的复杂性。

数据处理模式，小众参与。那时候是数据科学家是高大上的，统计学家是高大上的。未来我们说数据分析师、数据工程师比比皆是，大众协同，实际上现在也是很多人参与了很多协同的数据科学研究。

我们看数据科学时代科学研究，无论大学生也好，还是研究生也好，还是大学教授也好。原来做研究的方法，首先设计研究，技术路线，然后是数据采集，或者问卷调查，或者去安装仪器等等，或者问人家要。然后进行数据处理。现在这里面不是说数据不用获取，而是我们现在其实作为普通的做数据科学研究的人来说，他现在面对浩瀚的数据世界，我们现在只要你有能力从互联网爬数据，就可以获得相关的数据，当然中国各级政府也在积极开放数据，政府企业正在开放数据。

我们普通人去获得数据的能力，或者是可能性也越来越大了。所以我们也需要在研究设计，但无需亲自采集。我们需要有数据洞见，当然这个需要有经验。

工程开发也是，从数据提炼成知识，到解决工程问题是早期传统思维。现在直接从数据导过去，知识直接由机器来控制，可以直接去套用网上开放的、开源的大量算法。

我们看一些重要术语，所谓数据化，Datafication.

数据产品，Data Product.

数据柔术，Data Jiu_Jitsu.

所谓数据化，就是我们现在人的行为都被数据化了。大家看谷歌、百度都是把你的搜索行为在不知不觉中进行数据化了。

第二Twitter，Facebook、Linkedin等等国外的平台，相当于中国的微博和QQ及微信，我们写个微博，聊个天、发一段感想，发张照片，说句语音，也把我们的思想、情感、位置、社会关系都数据化了。是猎头和社交人才推荐，也是把人们的社会关系数据化了。这是我们说为什么有这么多数据。

我们第二个看数据柔术。原始数据通过这个柔术，柔术很形象的就是揉面，就把面粉变成了一个包子，变成了一个面包。这些数据产品，它的商业价值要比你的基础数据当然要高。但是这个工作我们需要所谓的加工。

早期的计算密集型就是需要更多大规模的计算机，实际上计算密集型和数据密集型密切相关的。像核爆炸模拟，水电站啊，什么生物信息学等等都是需要计算密集型，它可能数据不是太大，但是它要大量计算。

现在是数据密集型，我的存储需要大量存储空间。计算资源当然也需要很大。

比如我们说说天猫的11.11狂欢节，还是每天的语音搜索，都需要计算密集型和数据密集型。

我们看数据科学和相关学科，这里面其实相关学科还可以更泛一点。几乎涵盖了我们人类活动的所有方面，我觉得可以这么说，但是我们这里只是从这个圈子里面，我们说学术圈里面来明确的说一下。

黑客精神与技能，其实主要是计算机技术方面的。好的话去学习计算机科学理论的，坏的话就是去做黑客，去盗取人家的银行信息和诈骗等。

数学和统计学。大数据的很多处理方式都需要用到相关的数学和统计学的知识，所以学数学和统计学的人将来工作很好找。

领域知识，无论是工业生产还是市场销售，都有领域。其实大学里面出来的人，你数学再学得话，计算机学得好，没有领域知识，你也成不了数据科学家。这三者要结合，当然领域非常广泛了，所以就没有列入其他的，涉及到天文、地理、人文、历史，其实都有。

我们看研究流程，从现实世界我们可以产生很多数据，到数据化，刚才说的各种各样数据化，进行数据处理。当然我们数据处理的同时还要进行探索和分析，其实就是刚才三个维度的处理形式，进行数据的分析和洞见，我觉得永洪的BI，就应该是数据分析的洞见的有力工具。

现在轻量级的BI，很受企业界和政府的欢迎。原来大而全的所谓BI，需要专业人士去处理。而现在永洪这类轻量级的BI可以直接让业务人员自己去做BI，做数据分析。

最后结果展示，就是所谓的可视化。可视化可以减轻人们的认知负荷，也可以提高人们对数据背后知识的理解，引导人们产生智慧。

最后我们目的是要支持决策，支持我们的业务。

内容研究，这些其实差不多重复了，统计学、可视化，还有领域知识。中间是理论、技术、方法、工具。还有后面的预处理，数据管理、数据计算等等。

数据科学的原则，这里面核心的就是数据作为资产原则。还有业务化的原则，还有驱动原则。

数据科学的项目开发流程，这是一套流程。从项目目标定义到数据获取管理模式的开发，模式的验证，结果可视化到模式维护。

我们看看数据科学家应该有哪些能力？一般什么叫数据科学家？将现实中的问题，影射成或转化为数据世界中的问题，采用数据科学的原则、理论、方法、技术等等，我们称为数据科学家。数据工程师要求什么？要求能够制定组织机构的数据战略，提出问题，并会验证研究假设，完成数据的预处理及学习等等。

这是数据科学家一些工具，R、Python、Scala，SQL，Hadoop等，后面还有D3是属于可视化的，还有SaaS等等是一些重量级工具，这是数据科学的简介，我们简单介绍这些。

所谓可视化，那就是利用计算机图形学和图像处理技术，将数据转化为图形或图像，在屏幕上显示出来。进行交互处理，还要交互处理的一些技术方法和理论。特主要是一个形象的过程，用于表达思想。

我们看为什么要可视化，视觉是我们人类最重要的信息接受器官。超过50%的大脑功能用于接受视觉信息处理。眼睛是感知信息能力最强的人体器官。

大家看为什么可视化，左边是个统计数据，要讲的话，它是有各种各样相同的特征。X、Y这个数据，中位数、均值都相同。但是不看图形，我们看这两个数据集应该是一样的，但是我们看了图我们就知道这个点是数据，其实它是不一样的东西，分布是不一样的。

历史上5张最重要的可视化图。这个是John Snow 画的，1854年伦敦发生祸乱时期挽救了很多生命。

这是Hans Rosling用联合国的数据表示各国的经济状况、人口、婚姻等等，非常有名，在TED上很有名气。

这是拿破仑东征去征服俄罗斯的一幅图，这也是非常著名的。工程师画出来，拿破仑的军队从开始的时候，出征时候的人数很多，用黄色的很宽的线来表示，黑线是结束回来的人数，就像我们中国两万五千里长征一样，出发的时候30多万，到了陕北只有2万多。整个很复杂，等于是一张图把这个故事全讲完了。

这是南丁格尔的一个玫瑰图，她当时在战场上发现了很多问题，最后画了这张图就发现什么？其实很多士兵死亡不是当场死的，而是在后续卫生和救护不及时而死的。

这张所谓人类文明的清明上河图，这张图很复杂，有各种各样的历史人物、国家文明变迁。

我们看可视化的作用，记录信息，赛跑，这张图是一个叫Lily这个人的名字的年份变迁。

还有地图，假设和交流思想，展示隐含的模式。

感知是我们看到的，认知是通过我们思考获得的。

可视化是可以利用外部的这些图形图像，让我们更好的产生认知。

其实我们中国的文字就是一种思想、情感可视化的作品。

感知这些图像，无论左边的右边，有点和行等等，这是感知我们看到的。有色彩和形状。

认知就是通过视觉在人脑当中形成的归纳。它包括了注意力、记忆，以及解决问题和理解问题的心理过程。

大家看那幅图，大家看到黑点在跳，左边中间黄线的应该是有。这边是我们视觉看两个圆圈字的颜色不一样，其实因为有阳光照射和没阳光照射不一样。

这边也是对比，一个底色是黑的，一个底色是白的，同样一个灰的柱，它会产生不一样的结果。这也是，同样一个圆，在一堆大的里面它显得小，在一堆小的里面显得大。这些线是不是平行，我们看有没有平行，这都是我们的幻视，迟滞。

大家看出这是什么图了吗？这完全是我们视觉构建的，你之前有过经验，跟我们头脑里面配备，不同人有不同的说法，我在课堂也问过很多人。有些人和我有共识的，但后来我提醒了一下，可能大家看到这是一个斑点狗，斑点狗的形状比较多，黑的、白的，其实这是一些视觉迟滞现象，是一个真实世界在我们人内心的图像构建。

下面看可视化的流程。就从自然的社会现象，从数据采集，到数据处理和转换。核心就在这个从数值数据到影像数据的影射，就是把原来非数值数据变成图像的惊险一跳。为什么我们搞计算机的人做可视化呢？因为我们原来做过计算机图形学，图像处理等工作，图象处理主要是来研究怎么样把数据变成图像的方法。

最后用户感知，感知好不好就是刚才说的体验好不好。你通过你的图像，图形，是否能够更深刻理解数据背后的模式，最后产生灵感和智慧。

这是一些可视化编码，我们看编码标志就是点线面三类。我们所谓的可视化通道，包括位置、尺寸、灰阶、纹理、色彩、方向，这个在做可视化产品的时候，比如用永洪BI做一个数据可视化作品的时候，要考虑到这些东西。

其实视觉不仅仅是一个通道，我们说视觉对人来说是5个感官当中的一个，但是我们视觉通道在对数据的分类方面还可以分得更细。

我们看数据大致分为三大类型，数值型、有序型和类别型的。数值型就是一般数据。有序型就是大、中、小，1,2,3,4,5等这类的数据，类别型是苹果、橘子这种类型。数据可视化，针对不同的数据，我们可能采用不一样的方法。

我们看下面那个就是可视化的变量，或者是叫做通道。上面不同类型的数据，大家看位置变量都是第一位的。表现数值性数据的主要变量是位置，所以大家将来看可视化作品的时候，和位置有关的一定要放在前面。表现有序数据的主要变量也是位置，表现类别数据首要变量也是位置，其他的可视化变量在表现不同数据类型的时候的优先级就各不相同了，对于我们数值型数据，长度、角度、斜度、面积、体积就是我们比较能够接受的。

表现力，我们说各种各样的表现力，宽度、宽窄一种表现力，像宽带，我们知道这是欧洲某些国家的网络宽带，我们说宽带宽就是这个意思。

还有视觉突出，万绿丛中一点红，万方当中一个圆，还有分组优先，这些都是做可视化作品的时候，特别是有些技术人员，业务人员做可视化作品的时候需要考虑的东西。

我们看更准确的我们说通道的变化趋势，位置更能准确表达你的数据想要表达的意思。更不准确，颜色密度可能就是更不准确型。

我们看可视化设计原则，有全局优先、逐步细化、简单为要、有限色彩、合理分组、强调对比。这是我们总结出来的数据可视化的基本原理。

这是统计图里面的一个总结，我们说可以把统计里面的数据的相互关系分为比较、分布、关系、混合等四种组合。可以用这些常见的折线图、柱图、饼图、散点图来描述。

常见的可视化工具，Excel，当然我们说Excel是最经典的。D3，我们学校里面可原来做可视化主要用的就是D3。还有Processing，都是做可视化作品的工具。像现在Gephi、GoogleChart API、R、 Visual.ly、Many Eyes等，其实网上有几十种，都有不同特征，可以适合不同类型的数据。

我们看一些图例。大家看这幅图也是我从网上搜的，说我们全球70亿人，到底在做什么？14亿人年龄太小不工作。17亿人从事服务业，14亿人从事农业工作，8亿人从事工业工作，5.7亿人大于64岁。真正干活的就是下面这些人，这是饼图、条状图。

这幅图是一个研究美国人工作周薪男女差别的一个图。上面那个红点表示的是不同职业，有数据科学家、有服务业、有运输业、有经理等等，这些就是典型的统计科学。

这幅图大家可能不太清楚，这是电影有史以来，研究的美国电影海报的色彩。海报上色彩有多少像素，赤橙黄绿青蓝紫这个色彩谱系取下来就组成了，一行是一个电影，这下面是年份。大家可以看，这是一个宏观的、总体的，可以看到电影所使用的的色彩是越来越蓝。有分析称这是因为现在有更多的科幻电影，早期20年代、30年代比较温情的家庭剧，现在更多是科幻，《钢铁侠》等等，所以色调跟蓝色有关。

那幅图是世界主要国家的油价。大家看到中国的油价和加拿大、美国的油价差不多，比欧洲来的便宜，但是比中东和其他产油国地区来的贵，其实综合来看还是正常。

这是美国希拉里和克林顿的总统大选的态势，是动态的。

左边那幅画是我们当年做的一个，其实这幅图还获得了一个论文奖，就是我的团队做的。其实描述的是济南市10年来的空气污染指数和不同污染物，当时只挑出3种污染物，做了3棵树，一个树枝就是12个月，上面的绿色、蓝色、红色其实都是它的污染程度。当时还没有PM2.5的监测数据，只是有PM10的浓度监测数据，红色就标志着它浓度比较高。当然这是总体，我们去细化的话还可以放大看得更仔细。

这幅是向日葵。向日葵和蒲公英在这样发散，可以描述微博大V的微博扩散的形式。

那是高维数据的散点图，对多维数据的可视化形式。这是所谓双曲图，可以做的比较炫，其实各种图例非常非常多。

今天因为时间关系我就简单讲这些。

谢谢大家！