Knowledge-intensive NLP tasks can benefit from linking natural language text with facts from a Knowledge Graph (KG). Although facts themselves are language-agnostic, the fact labels (i.e., language-specific representation of the fact) in the KG are often present only in a few languages. This makes it challenging to link KG facts to sentences in languages other than the limited set of languages. To address this problem, we introduce the task of Multilingual Fact Linking (MFL) where the goal is to link fact expressed in a sentence to corresponding fact in the KG, even when the fact label in the KG is not available in the language of the sentence. To facilitate research in this area, we present a new evaluation dataset, IndicLink. This dataset contains 11,293 linked WikiData facts and 6,429 sentences spanning English and six Indian languages. We propose a Retrieval+Generation model, ReFCoG, that can scale to millions of KG facts by combining Dual Encoder based retrieval with a Seq2Seq based generation model which is constrained to output only valid KG facts. ReFCoG outperforms standard Retrieval+Re-ranking models by 10.7 pts in Precision@1. In spite of this gain, the model achieves an overall score of 52.1, showing ample scope for improvement in the task.ReFCoG code and IndicLink data are available at https://github.com/SaiKeshav/mfl


翻译:知识密集型 NLP 任务可以通过将自然语言文本与知识图(KG)中的事实联系起来而受益。 虽然事实本身是语言不可知的,但KG中的事实标签(即具体语言的事实说明)往往只以几种语言出现。这使得将KG事实与语言范围有限的语言以外的语言判决联系起来具有挑战性。为了解决这一问题,我们引入了多语言事实链接(MFL)任务,其目标是将句子中表达的事实与KG中的相应事实联系起来,即使KG中的事实标签没有以该句中的语言提供。为了便利这方面的研究,我们提出了一个新的评价数据集(即具体语言对事实的描述)。这个数据集包含11 293个连接的WikiData事实和6 429个跨越英语和六种印度语言的句子。我们提出一个“Retrerereival+Generation” 模型,通过将基于Dore Encoder 的检索与基于Seq2Seq 的生成模型结合起来,该模型只能输出KGFCS 5C+ trainal 数据范围。 Reformagistrational deal deal develasismal develasisax, 在10 Grefilgill sildal develismissional sildaldaldalmal sildal silmal. ReFogis. Refals. Refaldaldal 中, ReFogis, ex ex ex

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
18+阅读 · 2020年10月13日
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2018年10月11日
Arxiv
1+阅读 · 2021年11月22日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2018年10月11日
Top
微信扫码咨询专知VIP会员