上海地铁一卡通刷卡数据挖掘

2017 年 8 月 23 日 数据挖掘入门与实战 要学习更多点这→



大数据挖掘DT数据分析  公众号: datadw



原文:www.kesci.com

源码地址 :https://github.com/icomingi/metro


"游族杯"上海开放数据创新应用大赛


本次大赛以城市交通为主题,运用交通管理部门和相关企业提供的开放数据,以产品(原型)为比赛对象,结合线上线下活动,面向全国征集改善城市交通和市民出行的数据可视化应用和解决方案。(www.kesci.com)




通过挖掘地铁一卡通刷卡数据建立出行需求模型,用可视化方法展现出行特征,如地铁公交换乘热点和拥挤度时空分布,并基于这些特征提出运营优化方案。智慧地铁族团队还提取了如上班族的区域分布特征和广告投放新策略等价值信息。

大家或许好奇为什么汽车公司的人会关心地铁?事实上,上海这个超大型城市的生活经验告诉我们方便的公共交通尤其是地铁往往比驾车出行更有效率、也更可靠。

自己身为一名地铁族,几乎每天穿梭于地铁网络,乘车之余看着身边来去匆匆的乘客,不禁好奇想知道:

他们从哪里来?又要到哪里去呢?他们又是谁?


本次SODA大赛的开放数据满足了我们的好奇心。这是基于本次大赛数据制作的一个可视化示例,图上的圆圈代表对应站点的人流量,右上角是TOP10的排行榜。按照该方法,我们把上海地铁忙碌的一天浓缩为了一段动画:




这两张图都清晰的展示了上海地铁的早晚高峰和平常时段的出行人流特征,不同时段的高峰站点等信息。

在满足自己好奇心的过程中,我们其实已经建立了出行需求模型并开发了可视化工具。有了这些强大的工具,我们就试着让数据说话,让数据告诉我们如何让上海地铁变得更便捷、更舒适、更安全。


首先是如何更便捷。由于地铁网络成点状覆盖,也就产生了所谓的“最后一公里”问题。现实生活中,公交地铁换乘是很多人的解决办法,同时是很多跟我同样的地铁族的痛点所在。

通过挖掘一卡通换乘优惠记录,我们分别找到了工作日和休息日不同的换乘热点区域。如工作日,公交换乘热点区域集中在像1号线的莲花路、彭浦新村,9号线的九亭、七宝,8号线的沈杜公路,以及2号线的龙阳路、徐泾东等站点。


而休息日则具有极为不同的特征。相比较而言,休息日虽较为分散,但换乘的需求普遍增多。由于数据时值清明期间,扫墓的出行换乘需求也被突出地反应出来,如11号线的上海汽车城站。

以此为基础,交通部门和其他私营部门可以更有的放矢地优化现有线路或提供新型服务,以解决“最后一公里”问题。

此外,我们还发现同一线路各站间进站和出站流量分布极不均匀。我们可能都有这样的经验,高峰时段有些站怎么挤都挤不上,而有些站停下来却很少人上下车。

针对这种情况,我们提出了一个在高峰时段推出大站快速列车的规划算法,以提高系统运行效率。例如,这是9号线优化后的大站快车方案。

拥挤也是地铁族们常常抱怨的问题,也是各种段子像“仙人掌挤成芦荟”诞生的沃土。但是我们知道到底何时、何处、又是如何拥挤呢?要回答这个问题,我们首先定义了拥挤度。然后,通过建立模型并代入出行需求和运行时刻表计算拥挤度。

以5号线为例,请看拥挤度动态演示图。(图上柱子代表列车的载客量)

以上动态图清晰地显示出从早上7:14左右开始,5号线列车从颛桥站以后已经进入极度拥挤状态,拥挤度接近125%,而此时第一班早高峰列车刚刚从闵行开发区站出发。高峰列车刚好错过了整个系统人流的最高峰。

如果我们可以先参照一下数据,把早高峰班次提前一点,或者告诉乘客上车时间稍晚一点呢?我们相信更多的数据能让运营方和乘客都做出更好的选择。

关于地铁安全,我们可以看到或听到这样的新闻……我们发现电梯事故常常发生在人流的高峰站点。这难道只是巧合吗?

按照目前通常做法,每台电梯应定期检修,如半年或一年检修一次。那么是否每台电梯都应当用同样的检修频次呢?电梯的数量是否又满足需求呢?

事实上,数据再一次告诉我们,电梯的运行环境千差万别。我们对照地铁系统各站日均流量统计,人民广场日均人流量大约为22万人次每天,相当于华夏中路日均流量的300倍。

所以,针对如此悬殊的运行环境,我们认为电梯检修期限应以现有间隔为底线,按照人流量相应地增加定期检修频次,确保地铁系统电梯更安全。电梯的数量也应参考分钟人流量峰值规划。

说完他们从哪里来,到哪里去,那他们又是谁,又具有怎样的身份特征呢?通过简单的规则,我们找到了大约70万地铁上班族和他们的出行特征。

例如,他们大多居住于4号线以外区域,主要分布在1号线、2号线两端和9号线沿线的九亭和七宝区域。而工作区域则互补,主要沿2号线两边呈东西方向分布,外再加上徐家汇、漕河泾开发区等区域。

通过出发地和目的地的分析,另一个有趣的发现是生活在九亭工作在漕河泾的上班族人数最多。

我们依据对地铁出行数据的分析,提出了运用逆向思维投放广告的新策略。一个案例分析:某高端护肤品品牌常在静安寺站大规模投放广告,虽然有效但成本很高。

通过地铁人流数据,我们发现静安寺站人流大多来自7号线沿线顾村公园、新村路、大华三路等站。如果已知这些信息,则可考虑在这些广告租金相对便宜的站点进行投放,几乎可以吸引同样的目标客户群体。

人工智能大数据与深度学习

搜索添加微信公众号:weic2c


长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘


长按图片,识别二维码,点关注


登录查看更多
1

相关内容

开放数据(open data) 指的是可以被任何人获得、使用、分享(再分发)而不受版权等限制的数据。目前通常所说的开放数据常指开放政府数据,但其概念中也包含,比如,开放企业数据等。
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
专知会员服务
82+阅读 · 2020年5月16日
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
55+阅读 · 2020年3月4日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
北京市通勤出行特征与典型区域分析
智能交通技术
28+阅读 · 2019年7月19日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
热点 | 深圳无人驾驶公交车正式运营!
机器学习算法与Python学习
3+阅读 · 2017年12月4日
嘿,这是本应属于你的“红包”!
腾讯
3+阅读 · 2017年7月13日
Arxiv
12+阅读 · 2019年1月24日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
9+阅读 · 2018年4月20日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
北京市通勤出行特征与典型区域分析
智能交通技术
28+阅读 · 2019年7月19日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
热点 | 深圳无人驾驶公交车正式运营!
机器学习算法与Python学习
3+阅读 · 2017年12月4日
嘿,这是本应属于你的“红包”!
腾讯
3+阅读 · 2017年7月13日
Top
微信扫码咨询专知VIP会员