Statutory article retrieval is the task of automatically retrieving law articles relevant to a legal question. While recent advances in natural language processing have sparked considerable interest in many legal tasks, statutory article retrieval remains primarily untouched due to the scarcity of large-scale and high-quality annotated datasets. To address this bottleneck, we introduce the Belgian Statutory Article Retrieval Dataset (BSARD), which consists of 1,100+ French native legal questions labeled by experienced jurists with relevant articles from a corpus of 22,600+ Belgian law articles. Using BSARD, we benchmark several unsupervised information retrieval methods based on term weighting and pooled embeddings. Our best performing baseline achieves 50.8% R@100, which is promising for the feasibility of the task and indicates that there is still substantial room for improvement. By the specificity of the data domain and addressed task, BSARD presents a unique challenge problem for future research on legal information retrieval.


翻译:法定文章检索是自动检索与法律问题相关的法律条款的任务。虽然在自然语言处理方面最近的进展引起了对许多法律任务的极大兴趣,但由于缺少大规模和高质量的附加说明数据集,法定文章检索基本上没有触及。为解决这一瓶颈问题,我们引入了比利时法定条款检索数据集(BSARD),该数据集由1 100+法国本地法律问题组成,由经验丰富的法学家用22 600+比利时法律条文中的相关条款标注。使用BSARD,我们以术语权重和集合嵌入为基础,将若干未经监督的信息检索方法作为基准。我们的最佳运作基准达到50.8% R@100,这对任务的可行性很有希望,并指出仍有很大的改进空间。根据数据领域和处理的任务的特点,BSARD为今后法律信息检索的研究提出了独特的难题。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
121+阅读 · 2021年7月22日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
12+阅读 · 2020年6月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
专知会员服务
121+阅读 · 2021年7月22日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
相关论文
Arxiv
16+阅读 · 2021年1月27日
Arxiv
12+阅读 · 2020年6月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年1月11日
Top
微信扫码咨询专知VIP会员