In cross-lingual text classification, it is required that task-specific training data in high-resource source languages are available, where the task is identical to that of a low-resource target language. However, collecting such training data can be infeasible because of the labeling cost, task characteristics, and privacy concerns. This paper proposes an alternative solution that uses only task-independent word embeddings of high-resource languages and bilingual dictionaries. First, we construct a dictionary-based heterogeneous graph (DHG) from bilingual dictionaries. This opens the possibility to use graph neural networks for cross-lingual transfer. The remaining challenge is the heterogeneity of DHG because multiple languages are considered. To address this challenge, we propose dictionary-based heterogeneous graph neural network (DHGNet) that effectively handles the heterogeneity of DHG by two-step aggregations, which are word-level and language-level aggregations. Experimental results demonstrate that our method outperforms pretrained models even though it does not access to large corpora. Furthermore, it can perform well even though dictionaries contain many incorrect translations. Its robustness allows the usage of a wider range of dictionaries such as an automatically constructed dictionary and crowdsourced dictionary, which are convenient for real-world applications.


翻译:在跨语言文本分类中,需要以高资源源语言提供任务特定培训数据,任务与低资源目标语言相同;然而,由于标签成本、任务特点和隐私问题,收集这种培训数据可能不可行。本文件建议了一种替代解决办法,即仅使用高资源语言和双语词典中基于任务的单词嵌入高资源语言和双语词典。首先,我们从双语词典中建立一个基于字典的多元图(DHG),这为使用图表神经网络进行跨语言传输开辟了可能性。剩下的挑战在于DHG的异质性,因为考虑到多种语言。为了应对这一挑战,我们提议了基于字典的多种不同图形神经网络(DHGNet),通过两步组合有效地处理DHG的异性。这是文字级和语言级汇总。实验结果表明,我们的方法超越了预先培训的模式,尽管它无法进入大型公司。此外,它也可以很好地运行DHGG,尽管它具有多种方便的字典,但是它也能够运行一个更加精确的字典,因为它能自动地将它变成一种不准确的字典。

0
下载
关闭预览

相关内容

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
AAAI2020推荐系统论文集锦(附发展趋势分析)
图与推荐
6+阅读 · 2020年1月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
11+阅读 · 2018年10月17日
VIP会员
相关VIP内容
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
AAAI2020推荐系统论文集锦(附发展趋势分析)
图与推荐
6+阅读 · 2020年1月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员