Digital maps are commonly used across the globe for exploring places that users are interested in, commonly referred to as points of interest (PoI). In online food delivery platforms, PoIs could represent any major private compounds where customers could order from such as hospitals, residential complexes, office complexes, educational institutes and hostels. In this work, we propose an end-to-end unsupervised system design for obtaining polygon representations of PoIs (PoI polygons) from address locations and address texts. We preprocess the address texts using locality names and generate embeddings for the address texts using a deep learning-based architecture, viz. RoBERTa, trained on our internal address dataset. The PoI candidates are identified by jointly clustering the anonymised customer phone GPS locations (obtained during address onboarding) and the embeddings of the address texts. The final list of PoI polygons is obtained from these PoI candidates using novel post-processing steps. This algorithm identified 74.8 % more PoIs than those obtained using the Mummidi-Krumm baseline algorithm run on our internal dataset. The proposed algorithm achieves a median area precision of 98 %, a median area recall of 8 %, and a median F-score of 0.15. In order to improve the recall of the algorithmic polygons, we post-process them using building footprint polygons from the OpenStreetMap (OSM) database. The post-processing algorithm involves reshaping the algorithmic polygon using intersecting polygons and closed private roads from the OSM database, and accounting for intersection with public roads on the OSM database. We achieve a median area recall of 70 %, a median area precision of 69 %, and a median F-score of 0.69 on these post-processed polygons.


翻译:在全球各地,通常使用数字地图来探索用户感兴趣的地方,通常称之为感兴趣的地点。在在线食品交付平台上,POI可以代表客户可以从医院、住宅综合体、办公综合体、教育研究所和旅舍等单位订购的任何大型私人化合物。在这项工作中,我们提议采用一个端到端不受监督的系统设计,以获取地址和地址文本的PoI(PoI多边形)多边图的多边图。我们使用地点名称预处理地址文本,并使用一个深层次学习基础结构(即RoBERTA)生成地址文本的嵌入。在我们的内部内部地址数据库中,我们受过培训的就是RoBERTA。POII可以将匿名客户电话GP地点(在登机时安装)和地址文本的嵌入。这些POII(POI)多边边框的最后清单是使用新式后处理步骤从这些POI候选人那里获取的。这个算法比在内部数据库中运行的Mumidi-Krum基线算法要多74.8%。在内部数据库中,使用O-revalalal-rickal O-rass O-rassal 数据库中,使用O-rma 中,使用O-rma 的中的一个中位的中位的中位区域,从一个中将一个中位的中位数,用一个中位数区域,从98的中位。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
专知会员服务
42+阅读 · 2020年12月18日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员