Comparing document semantics is one of the toughest tasks in both Natural Language Processing and Information Retrieval. To date, on one hand, the tools for this task are still rare. On the other hand, most relevant methods are devised from the statistic or the vector space model perspectives but nearly none from a topological perspective. In this paper, we hope to make a different sound. A novel algorithm based on topological persistence for comparing semantics similarity between two documents is proposed. Our experiments are conducted on a document dataset with human judges' results. A collection of state-of-the-art methods are selected for comparison. The experimental results show that our algorithm can produce highly human-consistent results, and also beats most state-of-the-art methods though ties with NLTK.


翻译:比较文件语义是自然语言处理和信息检索中最艰巨的任务之一。 一方面, 这项任务的工具仍然很少。 另一方面, 大部分相关方法都是从统计或矢量空间模型的角度设计出来的, 但从地形学的角度来说几乎没有。 我们希望在本文中制造一个不同的声音。 提议了一种基于地形学的新型算法, 以比较两种文件的语义相似性。 我们的实验是在一个文件数据集上进行的, 与人类法官的结果相提并论。 选择了一套最先进的方法来进行比较。 实验结果显示, 我们的算法可以产生高度符合人性的要求的结果, 并且也可以战胜大多数最先进的方法, 尽管它与NLTK有关。

0
下载
关闭预览

相关内容

剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
50+阅读 · 2021年1月20日
专知会员服务
44+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
111+阅读 · 2020年11月12日
专知会员服务
124+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
100+阅读 · 2020年5月22日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2021年2月7日
Arxiv
7+阅读 · 2019年6月20日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
6+阅读 · 2017年12月2日
VIP会员
相关VIP内容
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
50+阅读 · 2021年1月20日
专知会员服务
44+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
111+阅读 · 2020年11月12日
专知会员服务
124+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
100+阅读 · 2020年5月22日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员