Data-driven subword segmentation has become the default strategy for open-vocabulary machine translation and other NLP tasks, but may not be sufficiently generic for optimal learning of non-concatenative morphology. We design a test suite to evaluate segmentation strategies on different types of morphological phenomena in a controlled, semi-synthetic setting. In our experiments, we compare how well machine translation models trained on subword- and character-level can translate these morphological phenomena. We find that learning to analyse and generate morphologically complex surface representations is still challenging, especially for non-concatenative morphological phenomena like reduplication or vowel harmony and for rare word stems. Based on our results, we recommend that novel text representation strategies be tested on a range of typologically diverse languages to minimise the risk of adopting a strategy that inadvertently disadvantages certain languages.


翻译:数据驱动的子字分解已成为开放词汇机器翻译和其他NLP任务的默认策略,但对于最佳学习非分类形态学来说,可能不够通用。我们设计了一个测试套,以评价在受控的半合成环境中不同类型形态现象的分解战略。在实验中,我们比较了在子字和字符层次上受过培训的机器翻译模型能够如何很好地翻译这些形态现象。我们发现,学习分析和产生形态复杂的表层表层表现仍然具有挑战性,特别是对于非分类形态现象,例如复现或元词和谐以及稀有词源而言。我们建议,根据我们的结果,在一系列类型多样的语言上测试新的文字表述战略,以尽可能降低采用无意中使某些语言处于不利地位的战略的风险。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
56+阅读 · 2021年3月15日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
8+阅读 · 2021年6月1日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员