Major scandals in corporate history have urged the need for regulatory compliance, where organizations need to ensure that their controls (processes) comply with relevant laws, regulations, and policies. However, keeping track of the constantly changing legislation is difficult, thus organizations are increasingly adopting Regulatory Technology (RegTech) to facilitate the process. To this end, we introduce regulatory information retrieval (REG-IR), an application of document-to-document information retrieval (DOC2DOC IR), where the query is an entire document making the task more challenging than traditional IR where the queries are short. Furthermore, we compile and release two datasets based on the relationships between EU directives and UK legislation. We experiment on these datasets using a typical two-step pipeline approach comprising a pre-fetcher and a neural re-ranker. Experimenting with various pre-fetchers from BM25 to k nearest neighbors over representations from several BERT models, we show that fine-tuning a BERT model on an in-domain classification task produces the best representations for IR. We also show that neural re-rankers under-perform due to contradicting supervision, i.e., similar query-document pairs with opposite labels. Thus, they are biased towards the pre-fetcher's score. Interestingly, applying a date filter further improves the performance, showcasing the importance of the time dimension.


翻译:公司历史上的重大丑闻敦促遵守规章,因为各组织需要确保其管制(程序)符合有关的法律、规章和政策;然而,跟踪不断变化的立法是困难的,因此各组织越来越多地采用监管技术(Regtech)来推动这一过程;为此,我们采用监管信息检索(REG-IR),即文件到文件信息检索的应用(DOC2DOC IR),查询是整个文件,使得任务比传统的内部档案(IR)更具有挑战性;此外,我们根据欧盟指令与联合王国立法之间的关系汇编和发布两个数据集。我们用典型的双步管道方法对这些数据集进行实验,其中包括预选和神经重新排位。我们用各种预扩展器进行实验,从BM25到最近的邻居进行文件检索(DOC2DOC IR),在几个BERT模型的演示中,我们展示了在内部分类任务方面对BERT模型的微调,为IRA提供了最佳的表述。我们还显示,根据欧盟指令与联合王国立法之间的关系,我们用典型的神经收缩器重新排列了两个阶段的数据集,以反级的评分级日期。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
MIT新书《强化学习与最优控制》
专知会员服务
279+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
已删除
将门创投
9+阅读 · 2019年11月15日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
An Analysis of Object Embeddings for Image Retrieval
Arxiv
4+阅读 · 2019年5月28日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员