In this paper we describe our efforts to make a bidirectional Congolese Swahili (SWC) to French (FRA) neural machine translation system with the motivation of improving humanitarian translation workflows. For training, we created a 25,302-sentence general domain parallel corpus and combined it with publicly available data. Experimenting with low-resource methodologies like cross-dialect transfer and semi-supervised learning, we recorded improvements of up to 2.4 and 3.5 BLEU points in the SWC-FRA and FRA-SWC directions, respectively. We performed human evaluations to assess the usability of our models in a COVID-domain chatbot that operates in the Democratic Republic of Congo (DRC). Direct assessment in the SWC-FRA direction demonstrated an average quality ranking of 6.3 out of 10 with 75% of the target strings conveying the main message of the source text. For the FRA-SWC direction, our preliminary tests on post-editing assessment showed its potential usefulness for machine-assisted translation. We make our models, datasets containing up to 1 million sentences, our development pipeline, and a translator web-app available for public use.


翻译:在本文中,我们描述了我们为使刚果斯瓦希里双向斯瓦希里语(SWC)向法兰西语(FRA)神经机器翻译系统(SWC)做双向转换的努力,其动机是改善人道主义翻译工作流程。在培训方面,我们创建了25,302个普通领域平行体,并将它与公开的数据结合起来。实验了跨对流传输和半监督学习等低资源方法,我们记录了分别在SWC-FRA和FRA-SWC方向上达到2.4和3.5个BLEU点的改进。我们进行了人类评估,以评估我们模型在刚果民主共和国境内运行的COVID-Domain聊天室(DRC)中的可用性。对SWC-FRA方向的直接评估显示,平均质量排名为6.3,10分之6.3,目标链75%传达源文的主要信息。关于FRASWC方向,我们关于编辑后评估的初步试验显示,它对机器辅助翻译的潜在作用。我们制作了模型、数据集,包含多达100万句子、我们的发展管道和翻译网络应用程序供公众使用。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员