行业资讯>BI>

从大数据的角度分析上海地铁那些事得出的结论

作者: 大数据观察来源: 大数据观察时间:2016-12-21 18:49:130

4.6亿地铁数据可以用来做什么

大家好，我是来自上海交通大学OMNILab实验室的张宏伦，现在是直博二年级，研究方向是数据分析和可视化。今天我给大家简单地分享一些和上海地铁数据有关的内容。

作为上海交通的重要组成部分，上海地铁日均客流量已经达到1000多万（下图是去年4月的统计）：

对于上海地铁的印象，说到优点，毫无疑问，上海地铁覆盖面广、功能强大、方便快捷，说到缺点，当然就是人多、人很多、人非常之多，对于上班族而言，每天的早高峰简直就和上战场一样。暂时放下对地铁人多的抱怨，今天我们从数据的角度来了解一下上海地铁。

地铁数据可以分为静态和动态两大类，前者包括线路信息和站点信息等，数据量小而且很少改变，后者主要是实时的交通卡刷卡数据，每天会产生一千多万条刷卡记录，对应一个800M左右的CSV文件，其中每一条记录都包含交通卡ID、刷卡日期和时间、站点、类型、费用、是否优惠七个字段。

那么，地铁数据可以用来做什么呢？

地铁数据是质量非常高的数据，具有简单、格式化、量大等优点，通过对其中的一个或多个字段进行聚合统计，可以进行个人行为分析、时序分析、地铁站点分析、费用分析等内容。如果进一步结合其他数据源，就可以有更加丰富的应用场景。

去年的SODA大赛提供了4月份一整个月的刷卡数据，每天1500万条左右，共计大约4.6亿条。

我们从两个维度来整理这些地铁数据的作用：第一个维度是分析的对象，是个人还是站点；第二个维度是分析的目的，是为了公共价值还是商业价值。在这里我画了一个坐标系，并且在每个象限里放了一些地铁数据的应用场景，当然这个图画得还比较简单，大家可以大开自己的脑洞进行补充。

我们想避免外滩踩踏事故重演

接下来给大家分享一个案例，这是我去年参加SODA的成果（可视化链接戳这里）：

案例场景是这样：演唱会、足球赛等大型活动一般多发于空闲时段，人群呈现出分批聚集、集中疏散的特征，活动信息可以提前预知，参与的人数少则数千多则上万。

我们当时通过大麦网等网站爬取活动信息，在未来的一个月内，上海将举办28场演唱会、55场音乐会和5场大型体育赛事，因此大型活动的发生十分频繁，其带来的安全隐患也是不容忽视的，最令人痛心的便是2014年跨年夜发生的外滩踩踏事件。

在活动结束之后，广大群众面临着打车贵、回家难的问题；对政府而言，疏散难带来的安全隐患是最头疼的问题；虽然有一些专用巴士公司可以提供巴士资源，但他们也面临着找客源难、指定路线难等问题。这三者之间彼此隔离、联系脆弱、信息孤立，不利于大规模人群的快速疏散。

因此，我们希望担任这样的一种角色，为政府解决社会问题、为乘客提供巴士信息、为巴士公司提供客源，为他们提供定制的分析和服务，营造互惠互利、和谐共存的数据环境。

如何识别和疏散大型活动大规模人群

我们的系统框架是这样的，主要包括数据集扩充、数据预处理、数据分析和挖掘、数据可视化等步骤，从宏观、微观、介观三个尺度来观察和使用地铁数据。

首先来看一下地铁数据的概览，24小时客流量分布呈现出明显的早晚高峰，4月份地铁、公交和出租车的刷卡次数呈现出显著的周期性，有趣的是，周一到周四的数据都比较稳定，而周五往往会迎来一次小的高峰，有可能是因为临近周末，大家会选择出去玩，从而增加了总的刷卡次数。

每天活动的用户数量、刷卡次数和刷卡总额呈正相关，工作日早晚高峰显著并且流量高于周末，而天气因素对交通流量的影响不明显，毕竟不管刮风下雨，都是必须要去上班的。

从右边的图中我们可以发现周五客流量增加的原因，从中午12点开始，到下午4点左右，客流量比其他工作日略有增加，这大概就是那些临近周末、按捺不住要去吃喝玩乐的一群人吧

接下来我们从宏观、微观、介观三个尺度来观察地铁数据。

宏观尺度反应的是区域行为，可以看到各个地铁站的出度、入读和权重，地铁线路之间的OD，以及地铁站之间的OD。什么是OD呢？O代表起点，D代表终点，所以区域之间的OD反应出的是人群的迁移行为。

从人民广场出发的乘客都去哪了呢？

其他地铁站的名字越大、越高、越深，代表去往的客流越多，所以从人民广场出发的乘客，很多都去了莘庄——这是唯一一个位于外环以外、客流量如此之大的地铁站，因为它承载着所有五号线人通往市区的梦想。

微观尺度反应的是个体行为。

如果问你，一共去过了多少个地铁站，也许社交达人会说我玩遍了全上海，而宅男只能回答我就去过那么两三个地铁站。可以看到，大多乘客去过的地铁站总数少于10个，但是也有去过80多个站点的地铁达人。

每位乘客的总刷卡次数一般都是偶数，因为出门坐地铁是一件有来有回的事情。

我们用模序来抽象个体行为，用有向图表示用户轨迹，通过轨迹提取可以识别出个人行为中的停留点和模序。可以看到最常见的十大类模序，其中单程型和往返型最多，这符合我们的客观经验。

左下角的图是某用户4月份的行为轨迹，可以看出4是出现最频繁的模序，往返的两点分别对应公司和家，其他模序则对应出游、参加活动等外出行为。

介观尺度反应的是群体行为。介观基于宏观和微观，处理对象是具有共同点的人群，例如一同前往某地参加大型活动的人群，宏观上表现为某个地铁站客流显著增加，微观上表现为大量乘客模序异常并且终点相同。通过分析区域性人群聚集行为，可以识别出该区域是否即将发生大型活动。图中是中华艺术宫站在4月15、18和19日的客流量，其中15为工作日，18和19为周末，可以明显地看出4月18日的客流出现了异常，在晚上呈现出缓聚急散的特征，这是因为当晚在该站附近有一场演唱会。

所以大家就能更好地理解，什么是基于地铁数据的大型活动大规模人群的识别了。

我们提出了基于宏观和微观的人群识别算法，结果是这样的。矩形大小代表所识别出事件的数量，可以看到中华艺术宫的识别结果非常多，日历中的红色表示这一天客流异常，有可能是举办了大型活动。

我们基于虹口足球场4月11日晚上的数据进行了大规模人群疏散模型的研究，在这一天晚上虹口足球场举办了一场足球比赛。调配的巴士越多、载客量越大，乘客疏散得越快，但是有可能造成巴士浪费和资源损失，因此存在一个使得盈利最大和疏散最快的最优点，可以在我们的可视化网站上动态交互地体验这一过程。

公交3.0的梦想

最后，我们想做的，其实不仅仅是大规模人群的识别和疏散，而是希望从本质上解决交通拥堵问题。

之前在公交上看过一则公益广告，一辆公交车能满足60辆私家车车主的出行需求，然而只有坐公交的人才会看到这样的广告。我们提倡少开私家车、增加公共交通工具的使用，希望通过整合出行需求、汇聚相似人流，达到缓解道路拥堵、改善出行体验的目的，从生活理念上做到绿色出行。

因此，我们提出了公交3.0的概念。

在1.0时代，你需要查询各个公交的路线，然后自己规划如何乘坐；在2.0时代，你只需要提供OD，导航软件会替你完成规划；而在3.0时代，站点和规划都是动态的，公交路线会根据用户需求动态调整，从而更好地利用道路和车辆资源、缓解交通拥堵问题。

用户提交个人出行需求，云端整理需求和资源，并规划路线和调度巴士，用户只需选择所需的巴士绿色出行即可。

总结一下，人越来越多、车越来越多，地铁的运载能力逐渐饱和，未来的出行希望也许会落在公交上。

公交3.0，不仅是一个新时代，更是你我的一个梦想。

关于惊艳的可视化，我想补充两点：

第一，可视化可以分为静态和动态，动态的可视化交互性更强，所以推荐感兴趣的朋友访问我提供的可视化链接进一步体验，像仲志强老师（我们的另一位数据侠）这样，把可视化做成视频、加上音乐，也是非常好的表现形式（多图多链接戳这里，慎入！）

第二，我个人觉得，可视化最大的乐趣在于，不断地发现和学习到新的东西，比如学习新的技术、接触其他人做的可视化等等，这样可以让自己快速进步并保持更高的兴趣和热情。如果永远都是自己一个人玩老掉牙的可视化，可能就很难做出让别人惊艳的作品了。

数据侠快问快答

问：这个数据分析从拿到题目，到最后完成可视化花了多久？可否分享一下其中的过程，哪些内容是最花时间、最具挑战的？

答：我还有一个队友。拿到题目之后，我们花了两周时间进行头脑风暴，之后便是不断迭代我们想法和产品，真正的开发工作我们两个人只花了两周的时间，毕竟经常做数据的人对于这些套路都很熟悉，但是最具挑战的便是如何在已有的技术框架上做出新的有意思的东西出来，这个是比较花时间的。

问：地铁数据宏观分析里面的权重是如何考虑设置的？介观分析里的事件矩形应该怎么理解？

答：这个权重我们做得其实比较浅。用户从一个地铁站到另一个地铁站，可以视为跟从一个网页跳转到另一个网页，所以我当时做这个权重值参考的是PageRank混合算法，做了一个类似的权重衡量，现在来看看这个效果并不是太好，因为没考虑到转移时间，而用户的转移也是有往返的，所以最后我们计算的入度、出度和权重其实非常接近。这个如果后面如果有时间的话，我会再做一些深入的分析，争取把每个站点的城市定位和特点做出来。

介观分析里每种颜色代表一条线路，里面矩形的大小代表这个站发生的异常事件的数量。事件矩形越大就说明这个站点识别出来的异常事件越多。有些站它本身可能不具备举办大型活动的条件，因为一个月下来都没有异常事件识别出来，自然就没有出现在最后的结果里。

看过还想看

可能还想看

热点推荐