Recent advancements in deep learning techniques have transformed the area of semantic text matching. However, most of the state-of-the-art models are designed to operate with short documents such as tweets, user reviews, comments, etc., and have fundamental limitations when applied to long-form documents such as scientific papers, legal documents, and patents. When handling such long documents, there are three primary challenges: (i) The presence of different contexts for the same word throughout the document, (ii) Small sections of contextually similar text between two documents, but dissimilar text in the remaining parts -- this defies the basic understanding of "similarity", and (iii) The coarse nature of a single global similarity measure which fails to capture the heterogeneity of the document content. In this paper, we describe CoLDE: Contrastive Long Document Encoder -- a transformer-based framework that addresses these challenges and allows for interpretable comparisons of long documents. CoLDE uses unique positional embeddings and a multi-headed chunkwise attention layer in conjunction with a contrastive learning framework to capture similarity at three different levels: (i) high-level similarity scores between a pair of documents, (ii) similarity scores between different sections within and across documents, and (iii) similarity scores between different chunks in the same document and also other documents. These fine-grained similarity scores aid in better interpretability. We evaluate CoLDE on three long document datasets namely, ACL Anthology publications, Wikipedia articles, and USPTO patents. Besides outperforming the state-of-the-art methods on the document comparison task, CoLDE also proves interpretable and robust to changes in document length and text perturbations.


翻译:最近深层学习技术的进步改变了语义文本匹配领域。然而,大多数最先进的模型设计成使用短文件,如推文、用户评论、评论等,在应用科学文件、法律文件和专利等长格式文件时,具有根本性的限制。在处理如此长的文件时,存在三大挑战:(一) 整个文件使用相同词的不同背景;(二) 两个文件之间背景相似的文本小部分,但在其余部分则不同 -- -- 这不符合对“相似性”的基本理解,以及(三) 单一全球相似性计量的粗略性质,未能反映文件内容的异性。在本文件中,我们描述COLDE:对比性长文档编码 -- -- 一种基于变式框架,可以应对这些挑战,并允许对长文件进行可解释的比较。COLDE使用独特的定位嵌入和多级粗度关注层,同时使用对比性学习框架,在三个不同级别上反映相似的相似性,在相似的文档中,在相似级文档和分级之间,也显示相似的高级数据解释。(i) 在不同的文档和分级中,在不同的分级文档和分级之间,在不同的分级中,我们之间,在不同的分级文档和分级文档和分级之间,不同分级之间,在不同的分级之间,比较。

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月2日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Arxiv
19+阅读 · 2018年10月25日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
30+阅读 · 2020年4月23日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员