This paper describes Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation systems for the WMT22 shared task. We participate in the general translation task on English$\Leftrightarrow$Livonian. Our system is based on M2M100 with novel techniques that adapt it to the target language pair. (1) Cross-model word embedding alignment: inspired by cross-lingual word embedding alignment, we successfully transfer a pre-trained word embedding to M2M100, enabling it to support Livonian. (2) Gradual adaptation strategy: we exploit Estonian and Latvian as auxiliary languages for many-to-many translation training and then adapt to English-Livonian. (3) Data augmentation: to enlarge the parallel data for English-Livonian, we construct pseudo-parallel data with Estonian and Latvian as pivot languages. (4) Fine-tuning: to make the most of all available data, we fine-tune the model with the validation set and online back-translation, further boosting the performance. In model evaluation: (1) We find that previous work underestimated the translation performance of Livonian due to inconsistent Unicode normalization, which may cause a discrepancy of up to 14.9 BLEU score. (2) In addition to the standard validation set, we also employ round-trip BLEU to evaluate the models, which we find more appropriate for this task. Finally, our unconstrained system achieves BLEU scores of 17.0 and 30.4 for English to/from Livonian.


翻译:本文介绍Tententent AI Lab-上海Jiao Tong大学(TAL-STU) 用于WMT22 共同任务的低资源翻译系统。 我们参与英语和利文总翻译任务。 我们的系统以M2M100为基础,采用新技术使其适应目标语言对口。 (1) 跨模范词嵌入匹配:受跨语言字嵌入整合的启发,我们成功地向M2M100(TAL-STUTU)传输一个预先训练的字嵌入M2M100(TAL-STUTU),使其能够支持Livonian 。 (2) 渐进适应战略:我们利用爱沙尼亚和拉脱维亚语作为辅助语言进行许多到多种翻译培训,然后适应英语和利文。 (3) 数据增强:扩大英语和利文的平行数据,我们用爱沙尼亚和拉脱维亚语作为活性语言构建假方语言。 (4) 微调:为了将所有可用数据中的大多数数据,我们用校准模式和在线回译,进一步提升绩效。 在模型评估中,我们发现先前的工作低估了欧盟标准标准标准标准标准值的升级的30(L)的成绩,我们也可以将标准比标准的变换为标准。

0
下载
关闭预览

相关内容

Tencent AI Lab 腾讯公司级AI战略蓄势待发,聚集全球数十位人工智能科学家、50位世界一流AI博士。 专注机器学习、计算机视觉、语音识别、自然语言处理等人工智能领域的研究。 基于腾讯亿万用户海量数据及在互联网各垂直领域的技术优势,立志打造世界顶尖人工智能团队。
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
50+阅读 · 2022年10月2日
不可错过!700+ppt《因果推理》课程!杜克大学Fan Li教程
专知会员服务
71+阅读 · 2022年7月11日
近期必读的六篇 ICML 2020【因果推理】相关论文
专知会员服务
88+阅读 · 2020年9月8日
专知会员服务
61+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
3+阅读 · 2022年3月30日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
相关VIP内容
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
50+阅读 · 2022年10月2日
不可错过!700+ppt《因果推理》课程!杜克大学Fan Li教程
专知会员服务
71+阅读 · 2022年7月11日
近期必读的六篇 ICML 2020【因果推理】相关论文
专知会员服务
88+阅读 · 2020年9月8日
专知会员服务
61+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
3+阅读 · 2022年3月30日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员