The majority of language domains require prudent use of terminology to ensure clarity and adequacy of information conveyed. While the correct use of terminology for some languages and domains can be achieved by adapting general-purpose MT systems on large volumes of in-domain parallel data, such quantities of domain-specific data are seldom available for less-resourced languages and niche domains. Furthermore, as exemplified by COVID-19 recently, no domain-specific parallel data is readily available for emerging domains. However, the gravity of this recent calamity created a high demand for reliable translation of critical information regarding pandemic and infection prevention. This work is part of WMT2021 Shared Task: Machine Translation using Terminologies, where we describe Tilde MT systems that are capable of dynamic terminology integration at the time of translation. Our systems achieve up to 94% COVID-19 term use accuracy on the test set of the EN-FR language pair without having access to any form of in-domain information during system training. We conclude our work with a broader discussion considering the Shared Task itself and terminology translation in MT.


翻译:大多数语文领域都需要谨慎地使用术语,以确保所传递的信息的清晰和充分性。虽然某些语文和领域的术语的正确使用可以通过调整关于大量内部平行数据的通用MT系统来实现,但很少能为资源较少的语文和特定领域提供这种数量的具体域数据。此外,如COVID-19最近的例子所示,没有为新兴领域提供特定域的平行数据。然而,最近这场灾难的严重性造成了对可靠翻译有关大流行病和感染预防的关键信息的大量需求。这项工作是WMT2021共同任务的一部分:利用Terminos进行机器翻译,我们描述了在翻译时能够动态整合术语的Tilde MT系统。我们的系统在EN-FR语言配对的测试组上实现了高达94%的COVID-19术语的准确性,而没有在系统培训期间获得任何形式的内部信息。我们结束我们的工作时,以更广泛的讨论共同任务本身和MT的术语翻译来结束我们的工作。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
41+阅读 · 2020年12月1日
专知会员服务
39+阅读 · 2020年9月6日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
3+阅读 · 2018年4月11日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
41+阅读 · 2020年12月1日
专知会员服务
39+阅读 · 2020年9月6日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员