A sememe is defined as the minimum semantic unit of human languages. Sememe knowledge bases (KBs), which contain words annotated with sememes, have been successfully applied to many NLP tasks. However, existing sememe KBs are built on only a few languages, which hinders their widespread utilization. To address the issue, we propose to build a unified sememe KB for multiple languages based on BabelNet, a multilingual encyclopedic dictionary. We first build a dataset serving as the seed of the multilingual sememe KB. It manually annotates sememes for over $15$ thousand synsets (the entries of BabelNet). Then, we present a novel task of automatic sememe prediction for synsets, aiming to expand the seed dataset into a usable KB. We also propose two simple and effective models, which exploit different information of synsets. Finally, we conduct quantitative and qualitative analyses to explore important factors and difficulties in the task. All the source code and data of this work can be obtained on https://github.com/thunlp/BabelNet-Sememe-Prediction.


翻译:将一个 sememe 定义为 人类语言的最小语义单位 。 Sememee 知识基础 (KBs) 包含 sememe 的词, 已经成功地应用于许多 NLP 任务 。 然而, 现有的 semememe KBs 仅建在少数语言之上, 妨碍其广泛使用 。 为了解决这个问题, 我们提议在 BabelNet (多语言百科全书字典) 的基础上为多种语言建立一个统一的 seme KB 。 我们首先建立一个数据集, 作为多语言 seme KB 的种子 。 它手动为 超过 $ 5 000 synsets ( BabelNet 条目) 的 EMemesemes ( $ $ $ $ $ $ $ 500 synsetets ) 自动 预测 。 然后, 我们提出一个新的任务任务任务任务是, 将 以 https://giuthub. com/thunlimp/ Babrem- selem- sypeal- sypeal- sat- data 。

15
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
12+阅读 · 2019年2月26日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
102+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
12+阅读 · 2019年2月26日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员