Knowledge enriched language representation learning has shown promising performance across various knowledge-intensive NLP tasks. However, existing knowledge based language models are all trained with monolingual knowledge graph data, which limits their application to more languages. In this work, we present a novel framework to pretrain knowledge based multilingual language models (KMLMs). We first generate a large amount of code-switched synthetic sentences and reasoning-based multilingual training data using the Wikidata knowledge graphs. Then based on the intra- and inter-sentence structures of the generated data, we design pretraining tasks to facilitate knowledge learning, which allows the language models to not only memorize the factual knowledge but also learn useful logical patterns. Our pretrained KMLMs demonstrate significant performance improvements on a wide range of knowledge-intensive cross-lingual NLP tasks, including named entity recognition, factual knowledge retrieval, relation classification, and a new task designed by us, namely, logic reasoning. Our code and pretrained language models will be made publicly available.


翻译:在这项工作中,我们提出了一个为基于多语言语言的知识模型(KMLMs)预先培训的新框架。我们首先利用维基数据知识图表生成大量代码转换的合成句和基于推理的多语种培训数据。然后,根据生成的数据的内部和相互结构,我们设计培训前任务,以促进知识学习,使语言模型不仅能够记住事实知识,而且还能够学习有用的逻辑模式。我们预先培训的知识管理模型展示了广泛的知识密集型跨语言国家语言模型(KMLMs)任务方面的显著绩效改进,包括名称实体识别、事实知识检索、关系分类以及我们设计的新任务,即逻辑推理。我们的代码和经过预先培训的语言模型将公开提供。

1
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年6月15日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
172+阅读 · 2020年2月13日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年6月15日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
172+阅读 · 2020年2月13日
相关资讯
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员