城市计算如何玩转住房选址?

2018 年 1 月 11 日 微软丹棱街5号 学术合作部


丹棱君有话说:你是不是也有同样的经历?在买房或租房时,希望锁定距离公司、某商圈或学区几公里范围内的房子,打开中介公司的在线选房系统,输入距离参数后,得出的却是按照直线距离筛选出的结果,与复杂城市环境中的实际通勤距离相差较大。怎样才能更精准地计算出地标位置的可达距离?微软的城市计算团队和浙江大学可视化研究小组,联合开发了一套在线住房选址可视分析系统。这一选址神器有多高效可靠?快跟随丹棱君一探究竟~


购房、租房者在挑选住房时通常有两类需求,一类与价格、面积、楼层等住宅的内部属性相关;另一类则与居住地点与目标地点间的可达性(Reachability)等地理属性相关

 

第二类需求非常重要,而现有的在线租售房系统往往是以机械的方式来满足这类需求,譬如筛选出距离某个地点几公里内的住宅。但是,直线距离在复杂城市环境中并无太多应用价值,多变的路况使得城市两点之间的通勤时间会以一天或一周为周期发生变化,这在北上广深等城市更为明显。


由巫英才老师率领的浙江大学 ZJUVIS 可视化研究小组,与郑宇博士率领的微软亚洲研究院城市计算组联手,为第二类需求开发了一套在线住房选址可视分析系统 ReACH 将价格、面积、卧室数量等要包括在内的同时,重点考虑了在地理决策中占据重要地位的地标位置可达性。


如何让用户清晰、自然地表达在可达性方面的需求呢?研究团队利用时间线的形式,允许用户通过滚动、点击、拖拽等直观的交互方式建立自己的行程,如 “8:30 从家出发,8:45 到达学校,9:00 到达上班地点”。同时,用户可指定诸如“只考虑工作日”的日期限制。家和学校的位置无需被指定,系统会自动基于可达性,推荐所有满足行程的位置集合。


ReACH 使用界面,包括时间线(左)、地图(上)、排序(下)、愿望单(右) 四个视图。


基于系统推荐,用户还可自行筛选符合行程的地点,缩小位置集合。针对第一类需求,用户可就价格、面积、完成行程所需时间等属性的范围进行调整,并按照个人偏好进行组合排序,从而找到自己的最佳住宅。

 

通过案例分析和用户研究,系统的有效性已被验证。


后端数据挖掘


上述过程的关键,在于高效可靠地计算出两个位置之间的可达性,并实现可视分析系统的即时反馈。这并非易事,后端的数据挖掘模块主要有两个技术难点,包括海量数据带来计算效率的难题,以及庞大数据的局部冗余和全局稀疏


为了支持可达性的计算,为了支持可达性的计算,研究团队搜集了两个地点之间数据量以十亿计的出租车行驶记录数据。在此前研究中,即使利用三台服务器进行并行计算,也需要 20 多秒的时间,远不能满足可视分析系统即时流畅反馈的用户需求。


模型需通过指定时间内两个地点间是否有直接连接的交通轨迹来判断其可达性,但是有限的出租车无法实现城市中每一条道路的全天全时覆盖,这种数据的稀疏性阻碍了可达性预测在整个城市范围内的稳定性。倘若增加数据规模,又会遇到存储和计算效率的瓶颈。


为了解决这些难点,研究团队创新性地利用了图结构存储和索引海量轨迹数据,革新了先前的可达性计算模型。可达区域的查询时间被压缩到 3 秒以内。

 

Microsoft Azure 云计算平台与服务亦在本研究中有很好的应用。出租车约每 25 秒记录一次状态,这样的离散记录并不能直接用于可达性计算。研究团队将这些记录投影到连续的路网上并补齐缺失的数据,使之成为连续轨迹。在这个过程中,Azure 强大的并行计算能力被充分发挥。此前在单机上运行模型处理两个月的数据,约需要连续计算一个多月,在迁移到 Azure 的 Spark 多机计算平台上后,处理完整的数据集只需数天,极大地提高了研究初期迭代可达性模型时的设计效率。在后期,研究团队将可视分析系统部署到 Azure 云服务器上,进一步加快了后端可达性数据挖掘模块的计算效率,其成果也可从世界各地流畅地访问。


前端可视化设计


研究团队设计和开发的是一个新颖的可视分析系统,它基于时间线进行可视表达与交互。前端的可视化设计,也有两大难点,包括清晰直观地将可达性集成到可视化设计,及基于用户个人偏好,综合考虑多种属性帮助他们做出决策,研究团队亦将其一一消化。


ReACH 系统的可视化设计。时间线视图(左)帮助用户直观地建立可达性限制条件,地图视图(上)帮助用户清晰地理解可达性计算结果,排序视图(下)帮助用户高效地筛选理想住宅。


可达性是一个抽象概念,理解它和背后的计算过程对于普通用户来说并不容易。研究团队选择隐藏模型细节,创新性地以安排日程的形式来间接引导模型计算出满足条件的住房。在时间线视图中,用户借由直观交互建立某段时间内的行程,指定到达时间、到达地点的类型、出发时间等参数,以此来作为模型的输入,从而计算得到可达区域,筛选出满足条件的住房,可达性概率信息也以热力图的形式呈现在地图上,十分直观。


研究团队扩展了基于表格的 LineUp 多属性可视排序技术,加入所有住宅在单个属性上分布的可视化,并允许用户直观地对这些属性的范围进行筛选,避免用户在对数据集一无所知的情况下设定过宽或过严的过滤条件。此外,系统还支持用户将心仪住宅加入愿望单,以便进一步对比分析。


目前,微软的城市计算团队和浙江大学可视化研究小组共同完成的关于在线住房选址可视分析系统 ReACH 的论文,已被人机交互领域的顶级会议之一 ACM CHI 2018 大会接受。


本文转自微信公众号:微软学术合作


了解更多:




后台入驻微软小冰

如果你很萌,请跟她一决高下!


登录查看更多
2

相关内容

城市计算是一个交叉学科,是计算机科学以城市为背景,跟城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域。更具体的说,城市计算是一个通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战(如环境恶化、交通拥堵、能耗增加、规划落后等)的过程。城市计算将无处不在的感知技术、高效的数据管理和分析算法,以及新颖的可视化技术相结合,致力于提高人们的生活品质、保护环境和促进城市运转效率。城市计算帮助我们理解各种城市现象的本质,甚至预测城市的未来。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
如何做数据治理?
智能交通技术
18+阅读 · 2019年4月20日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
如何运营15万付费用户?
三节课
6+阅读 · 2019年2月28日
2018年推荐系统入门指南
论智
15+阅读 · 2018年7月14日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
4+阅读 · 2018年4月9日
VIP会员
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
如何做数据治理?
智能交通技术
18+阅读 · 2019年4月20日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
如何运营15万付费用户?
三节课
6+阅读 · 2019年2月28日
2018年推荐系统入门指南
论智
15+阅读 · 2018年7月14日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员