Sentence-level (SL) machine translation (MT) has reached acceptable quality for many high-resourced languages, but not document-level (DL) MT, which is difficult to 1) train with little amount of DL data; and 2) evaluate, as the main methods and data sets focus on SL evaluation. To address the first issue, we present a document-aligned Japanese-English conversation corpus, including balanced, high-quality business conversation data for tuning and testing. As for the second issue, we manually identify the main areas where SL MT fails to produce adequate translations in lack of context. We then create an evaluation set where these phenomena are annotated to alleviate automatic evaluation of DL systems. We train MT models using our corpus to demonstrate how using context leads to improvements.


翻译:对于许多高资源语言来说,句级机器翻译(MT)的质量已经达到可接受的水平,但对于文件级机器翻译(DL)质量却无法达到可接受的质量,而文件级机器翻译(DLMT)则难以达到可接受的质量,因为1(1) 培训的DL数据很少;2) 评估,因为主要的方法和数据集侧重于SL评价。为了解决第一个问题,我们提交了一份符合文件要求的日文-英文谈话材料,包括用于调试和测试的平衡、高质量的商业对话数据。关于第二个问题,我们手工确定SLMT在缺乏背景的情况下未能产生适当翻译的主要领域。然后,我们创建了一套评估工具,说明这些现象,以减轻对DL系统的自动评价。我们用我们的文集培训MT模型,以展示使用环境如何导致改进。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
职播间 | 从0到1构建聊天机器人
AI研习社
5+阅读 · 2018年10月30日
已删除
将门创投
7+阅读 · 2018年4月18日
Universal Neural Vocoding with Parallel WaveNet
Arxiv
0+阅读 · 2021年2月15日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Top
微信扫码咨询专知VIP会员