用大数据给城市画像

作者: 大数据观察来源: 大数据观察时间:2017-01-10 09:33:310

城市的美，或许隐藏在市井小巷里，或许呈现在深夜高架两旁的霓虹之间……无论你用哪种角度来看城市，所有的细节其实都隐藏在数字里。

Managershare：对于描绘城市，画像或者漫画，是一种更形象的方法。我们可以使用各种有趣的类比，来构建更震撼的效果。城市，真的很美。

导论

源自城市的丰富数据可以让我们了解人们怎样组织起来，无论组织的规模有多大。可视化城市话语提供了种种方法，有抽象的，也有直观的、形象的。在本章中，我们使用一种不那么抽象、不那么简单的方式来处理可视化城市问题。我们超越了科学的可视化的处理方式，转而投向我们称为具体的可视化方法。通过这种方式，我们退一步来审视可视化必须以抽象直接的方式呈现数据这种理念。通过一种形象的方法，我们把图像与漫画引入到了数据的国度，使用可视化的隐喻，引入变形的视觉效果，来强调数据的某些特定方面。这使得我们能够使用有趣的类比，构建视觉效果，来向学术圈外的一般大众传达城市的本质特征。

这篇文章将描述了两个可视化的案例，既有抽象方法的案例，也有具体方法的案例，但是没有涉及具体的技术细节，而是试图用一种可信的话语，使用图像与漫画的方式，在可视化数据的语境中，把这些呈现出来。

可视化的具体方法

信息可视化是一个跨学科的领域，涉及平面设计、人机交互、计算机图像学以及数据挖掘。这个学科的目的是为广大受众综合大量的数据，从数据中提炼并澄清信息。这里所说的具体方法，分为相片、图像、漫画以及扭曲等方法，从而得以描述可视化的不同方式。这种分类学背后的概念是著作权（译注：根据上下文，此处当指数据的原创程度）。我们认为著作权的内涵是可变的，随着图像的创造者对数据进行可视化的角度而变化。著作权在当代的可视化信息中名目繁多，这些可视化信息大多从属于“信息技术”（information art）这个术语，并且也深植于科学可视化之中。值得注意的是，当可视化制图的目的并不是单纯地分析数据的时候，可视化常常被视为对真相的歪曲，在学术性的可视化语境中尤其如此。虽然在这是一个简洁的视角下的合理论述，对于数据的漫画化在概念上就是不可避免的。正如费尔南达·维格斯指出的：“传统的视觉分析工具尽量减少对信息的歪曲，因为这可能会干扰冷静的分析。有没有可能，这种尽量减少视角（带来的偏差）的方式已经误入歧途？首先，创造一个真正不偏不倚的视图在总体上而言是不可能的。正如我们不改变空间距离，就无法绘制地球的表面图。

考虑到著作权在数据可视化领域在某种程度上总是存在的，我们的分类学主要以四种方式处理数据可视化问题，这四种方式的著作权等级是按升序排列的：相片、图像、漫画以及扭曲。但是著作权并不是描述这些概念、使这些概念具有连续性的唯一方式。这种具体的方法重点在于，可视化并不是必须借助抽象的美学，而可以传递强烈的视觉隐喻，也可以在沟通语言中强调某些数据的特征。由于信息可视化是数据可视化领域的一个领域，数据可视化涵盖了科学可视化，可以说也涵盖了艺术可视化，因而这种看似不科学的分类学方法描述出了可视化领域内从更科学的一端到更艺术的一端的谱系。

数据相片

在我们的分类法中，相片是对一个数据集的最直接的复制——这是一种最接近一对一映射的数据模型。这一概念指的是李维·马诺维（Lev Manovich，2011）在既没有还原也没有直接制图的情况下进行的可视化。直接制图保留了数据的特征，而非通过雅克·贝尔坦（Jacques Bertin,1967）的位置、大小、价值、质地、颜色、方向和形式等视觉变量，将映射数据转化为一种抽象的象征。数据集中的文本在表象空间中仍旧是文本，图像仍旧是图像，语言仍旧是语言，如此等等。这样做不会侵犯著作权，因为可以从不同的角度拍摄相片，可以忠实地表现照片的主题，同时又保留照片的每一特征，在本文所说的情况下，也就是保留了数据的特征。

数据肖像

在数据肖像中，作者通过反复的视觉隐喻，起到了比在照片中更加重要的作用。这里的视觉隐喻不仅仅是装饰性的视觉原素，不是爱德华•塔夫特（Edward Tufte，1983）称为“图表垃圾”的东西，而是图形的详细内容，其语义学内涵接近数据集和作者所要传递的信息。这些语义学隐喻和唐娜·考克斯（Donna Cox，2006）所说的“visaphor”含义最为接近，它们都意味着依赖于主观解释的近似数据。语义学上的视觉隐喻是在数据中以及直接映射中存在某些特征的具体证据。这些证据在图像层面得到了阐释，因而带来了不那么抽象的、更明快、更自然、更具表现力的作品。

此外，视觉隐喻具有新颖性和独特性，这些特点是深植于我们的文化之中的，然而现在我们失去了这些特征。例如，饼图是1801年威廉·费尔坡莱（William Playfair）发明的（费尔坡莱，统计摘要，对欧洲各王国的资源情况说明）。这曾经是一种新颖的办法，随着使用的普遍化变得不再新鲜。饼图传达出一种细致的视觉隐喻，表示出一个整体的一部分。

数据漫画

我们把数据漫画当做数据肖像的一种扩展形式，因为它们也利用语义学上的视觉隐喻。但是数据漫画也有自己的独有特征，如下所述。

通常认为，漫画是一个主题的形象化，通过夸大某些突出特征，来达到提高辨识度的目的。（Redman，1984）。这种所谓的辨识度是所谓的“峰位转移效应”的结果。一个习惯于表象r的个体，在看到与之相似的表象b的时候，b和r的差别越大，个体的反应就越强烈（Ramachandran和Hirstein，1999）。这样的一个参考模型r是漫画的核心部分，无论在精神上还是物质上，它总是存在的。

漫画概念在数据可视化语境中有一定的限制。正如我们解释过的，漫画基于心理上的图像给出的参照。这样的一种参照在数据可视化领域并不是理所当然的，因为即使是最直接的可视化也会给原来的非可视化数据带来一种新形式。因而，漫画在可视化语境中的应用取决于漫画所表象的参考模型的相似性，从而可以比较其不同。

如上所述，漫画与夸张和辨识度的概念是联系在一起的。在与数据有关的语境下，夸张意味着增加某个特定角度的权重，减少其他角度的权重。除了彼得·雷泰（Peter Rautek等人，2006）的著作中所指出的放大数据差异的那种方式之外，这在其他好几个方面都是可以以图形方式实现的。这会造成数据资料形式、位置、大小、颜色的视觉要素的扭曲。辨识度在数据的语境中，意味着对数据意图的说明，对来自数据的信息加以强调。虽然数据漫画和数据照片以及数据肖像相比，这种形式未必是最优越的，我们仍然认为这是一种可视化的解决方案。总之，数据漫画是一种可视化的模型，这种模型用图像的方式对数据维度加以扭曲表现，用以强调同样的数据维度，或是其他数据维度。

很明显，漫画的方法之一，是通过地理位置的变形，来实现数据可视化的。这一方法自19世纪以来一直应用在统计图上。变形的统计地图是为了表现其他的数据维度。例如，世界地图上的面积统计图会根据人口或是GDP适当变形。这一方法被丹尼尔·道灵（Daniel Dorling）所简化，著名的例子就是《道灵统计图》。这种统计图不会保留地理对象的形状，而是常常用与映射成正比的圆圈的大小来表示。尽管简化了地理对象的形状，道灵已经被证明是非常有效的。这些方法的漫画性质在于强调某些数据维度（比如人口），弱化地理地图维度。这种地图是一种可供参考的模型，或者完全是被表现出来的，或者是一种精神上的建构。

数据残缺

数据漫画引入对数据的变形来表现数据，当这样的扭曲超过某个程度，就会导致数据残缺。残缺的数据过分强调了某些特定数据，以至于传达了某些关于数据的错误信息。它们颠覆了某些视觉隐喻的语义学内涵，破坏了可视化的澄清作用，产生了难以理解的制图。然而夸张的变形给了创造更多的空间，产生了更加令人难忘的制图作品。

城市的形象可视化

我们的案例研究以直观的、形象的方式实现了对里斯本和新加坡的城市交通系统的可视化。里斯本的数据集（数据由葡萄牙CityMotion项目/麻省理工大学提供，可视化的项目也得到了PTDC/EIA-EIA/108785/2008世界协作组织的支持，来优化移动性）包括了对城市中车辆在一个月内的GPS定位，记录了车辆位置与当前速度的信号。新加坡的数据集包括乘客的上下车信息（所谓的登入与登出），以及在一周以上的时间里在新加坡城中分别花了多少交通费。（数据由新加坡陆路交通管理局提供。可视化项目源自实时新加坡！项目，此项目由麻省理工大学的可感城市实验室以及SMART的Kristian Kloeckl负责。）

里斯本的相片

里斯本的数据集的时空精度不允许我们用可视化的方式分别描述每一天的交通模式的明确数据。因而，我们把信息压缩到单独的虚拟日之中，对每秒的数据进行分组，并通过动画加以展示。为了让交通的时间模式变得更加明显，每辆车都用一个小白点表示，在虚拟时间中会在30分钟内留下痕迹。相应的痕迹几乎是透明的，并根据车辆的速度涂上颜色。这些颜色的范围是有限的，红色和橙色表示速度放缓，绿色表示50公里/小时，青色表示更高的速度。这些轨迹往往在视觉方面不断重叠堆积，形成隆起的线条，这些线条在色块和透明的区域出现，它们（通过厚度和透明度）代表了交通的密度，（通过色彩）表示当时的平均速度。例如，狭窄的街道上的线条往往是薄薄的红色，而高速公路上的线条往往是厚厚的绿色。横跨里斯本的高速公路的颜色在交通高峰期会变成偏黄的色调。

对某个数据集的可视化通常涉及到在下面所说的系统中寻找问题：在里斯本的数据集中，那些拥挤的地区是最明显的特征。为了强调这些特征，我们添加了另外的视觉要素，将那些每30分钟就有一辆车经过的地区用很低的透明度表示。我们通过封闭回路、连接起点和终点来标明这些覆盖区域；透明度越高，颜色越接近橙色和红色，车速就越低（车速接近绿色，表明这个车速几乎是透明的。）在白天用图来表现这些区域是最大的问题，问题是要让人们更容易看到这些，而不是仅仅使用一些有色的线条来勾画这些区域——这是一个出名的难题。例如，在白天，表示市中心的线条要如何保持高亮度，城市周边地区如何在其他地区之前进入活跃状态。这不仅仅要引导观众的注意力，还要在制图中加入视觉要素，使其变得更加细致、更引入注目（见图1）。所有半透明的叠加线条与形状，使得从具体的数据要点中提取视觉要素变得不太可能，如某辆车的瞬时速度。但是这是一种直观的表现，数据的一种照片形式，并且它提供了一天之内里斯本交通进程的整体图片。

由于制图要非常细致，因而必须离线制作，之后被组合为一个动画。然而，有时制作实时的可视化图片也是有利的，让我们有机会在出现问题的时候及时发现这些问题。以下这些在新加坡的项目表现出这样的用意。

点击可放大

看过还想看

可能还想看

热点推荐