观点 | 朱靖波:辅助翻译技术需「以人为本」

2020 年 4 月 19 日 AI科技评论

编者按:朱靖波教授是小牛翻译创始人、东北大学计算机学院教授,为国内外著名的机器翻译学者。 在本文中,朱靖波教授反思了当前机器翻译技术所带来的“译后编辑”模式 (即人工翻译过程变 成纠错校对后编辑过程)的不足之处,并提出机器翻译研究应尝试开发“以人为本”的辅助翻译技术。

当前,机器翻译技术大多是从技术本身出发,考虑的视角一般是普通人,但却忽略了对机器翻译有较强需求的人工翻译人员的需求,导致译员在借助机器翻译进行译后编辑过程中,存在一系列矛盾之处。“以人为本”的辅助翻译技术,即从译员的角度考虑他们真正需要哪些帮助。这种观点是一种研发视角的思想变革。

作者 | 朱靖波
编辑 | 贾   伟


自从上个世纪四十年代计算机诞生之时,机器翻译就成为大家首先想到的计算机应用之一,帮助解决人工翻译代价高、效率低的问题。机器翻译技术经过几十年的发展,翻译能力越来越强,从基于规则的方法、统计机器翻译技术到现在主流的神经机器翻译技术,对人工翻译的“降本提效”方面帮助越来越大。前一段时间甚至引发机器翻译代替人工翻译的争论,经过这两年的讨论,大家各自心里都有自己的评判,至少从原先的对立性观点,慢慢转变成为共存性观点。我写本小文的目的不是为了讨论这个问题,而是想分享一下我对机器翻译如何帮助人工翻译的一些想法。

利用机器翻译帮助人工翻译,通常称之为辅助翻译技术(CAT),也可以叫作机助人译。也有人在研究人助机译技术,这个不是本文讨论的重点,但我觉得两者可以有机融合,相互促进,共同受益,也是一个有趣的话题。

回到传统辅助翻译技术话题,暂时抛开不讨论翻译记忆技术(Translation Memory),基本思想是保留之前翻译好的数据,采用检索的技术,避免重复翻译的工作,对于经常翻译特定任务的人工翻译来说,帮助是挺大的,比如翻译汽车手册,不同版本的手册重复度可能达到60%以上,可以大大降低人工翻译代价。翻译记忆的技术充分发挥了计算机的存储检索优势,最大的问题就是检索匹配过程比较严格,翻译记忆库的覆盖度大小决定了使用效果,特别是初期还没有大规模的翻译记忆库的时候。

目前很自然想到的机器翻译辅助人工翻译的应用模式是译后编辑,基本方法非常简单,人工对机器翻译结果进行纠错校对和后编辑。从理论上来说,如果机器翻译输出的译文质量高,可以大大降低人工翻译后编辑的代价。换句话说,对人工翻译的帮助效果完全依赖于机器翻译的译文质量好坏。从实际应用来看,在很多特定领域的翻译任务中,机器翻译的译文质量没有达到人工译员的期望,因为很多时候机器翻译系统的构建是通过通用领域双语数据构建的,当然基于特定领域的双语数据构建的机器翻译系统,译文翻译品质有可能提升10%甚至更高,这样的话,对人工翻译的帮助会更大。

机器翻译的表现有点不同于人工翻译,比如在翻译一篇文章的时候,经常会出现有些句子翻译很好,有些句子翻译质量不好。当人工翻译看到一篇混合翻译质量好与不好的译文,也会大大降低人工译员对机器翻译的好感。所以从应用角度来看,如何对机器翻译译文质量自动评价,比如用不同颜色标注不同质量的译文句子,人工译员可以选择高质量译文句子进行后编辑,忽略质量不好的译文句子,也是一种可以考虑的选择。

译后编辑工作模式的另一个问题是改变了人工译员的翻译习惯,将人工翻译过程变成纠错校对后编辑过程。严格上来说,这是一个弊端,对于不同年龄的译员来说,接受度可能是不一样的,也许年轻的译员接受度会好一些,对于资深译员来说,接受度会差很多。另外还有一点,机器翻译的译文就算正确,由于翻译是一个具有艺术性的工作,每个译员也许拥有不同的翻译风格,涉及到用词和句子结构选择,因为一个句子实际上会存在很多种不同的正确翻译结果,所以有信达雅三个层次的翻译水平。特别是针对一些高水平翻译来说,不是简单译文能够准确表达原文意思就可以的,比如诗歌翻译需要讲究境界。我猜想高水平译员对于翻译也有不同的态度,对于译文的质量要求也不同,所以完全改变他们的翻译习惯,缺乏参与性,只是简单纠错校对工作,也会让他们大大降低使用机器翻译的兴趣。

机器翻译还面临一个更大的实际问题,因为机器翻译系统都是事先训练好的,目前缺乏非常有效的强大反馈学习能力,比如译员修改了机器翻译译文错误,下次翻译的时候,机器翻译还会犯同样的错误,当然可以引入添加用户术语词典来优化机器翻译品质,但这个能力非常有限,主要能力只能体现在术语翻译本身,对于句子结构翻译错误、省略翻译错误、重复翻译和漏译等问题无效。所以如何让机器翻译能够自动学习译员的纠错信息来优化翻译品质,这个一个非常值得研究的课题。

前面提到不同人工译员的译文风格可能会有所不同,这就导致要求所有译员基于同一种译文风格(同一套机器翻译的译文风格)进行修改后编辑,有时候也是非常痛苦的事情。曾有人提出一个问题,机器翻译能否通过自学习机制,让自动翻译结果的译文风格慢慢吻合使用者(译员)的译文风格呢?这个也是非常有趣的话题,也许值得进一步研究。

除了译后编辑工作模式外,机器翻译还有另外一种方法来帮助人工翻译,我们称之为交互式机器翻译。主要动机是希望尽量不改变人工翻译习惯来使用机器翻译服务。举个简单例子,人工翻译一个长句子的时候,比如从左到右翻译,当人工翻译一部分片段的时候,将人工翻译的(部分)译文作为约束条件作为输入,要求机器翻译结果保持人工翻译结果前提下,给出其它未翻译部分的译文。当然交互式机器翻译的实现方法可能还有很多,基本思想就是充分尊重人工翻译结果的前提下,尽可能提供机器翻译帮助。从理论上来说是非常有趣的,但其中涉及到操作模式的用户体验问题,再加上每个人工翻译过程是否严格遵循从左到右翻译等等,如何设计一个良好的交互式机器翻译用户体验,好像不是非常容易。

直觉上来说,译后编辑工作模式可以作为交互式机器翻译的特例,相对来说,一种具有良好用户体验的交互式工作模式容易被译员所接受。其实对于译员来说,翻译水平也有高低,对于辅助翻译工具的要求也有不同,简单打个比方,就算机器翻译给出一个译文,如何判断这个译文质量好话,也是一个挑战。如果译员认为机器翻译译文质量好,也许可以采纳,否则就拒绝,前提是他能够准确判断质量好坏。另外对于译员来说,有时候需要更多的翻译辅助能力,比如查找一些更好的单词译文、短语译文和译文结构选择,也许希望推荐一个高质量的例句等等,总之,除了机器翻译技术本身,交互式机器翻译的关键在于如何设计一个用户体验良好的交互模式。

其实如何评价机器翻译对人工翻译的作用,这个也是不太容易回答的问题。是不是能够提供质量好的译文,就说明有帮助呢?好像也不一定。两个译员可能对机器翻译的辅助翻译能力也有不同的期望和需求,这一点不能简单从机器翻译技术好坏角度来分析,甚至有可能因人而异,这个就不容易讨论清楚了。总之绝对没有那么简单的说,机器翻译品质提高了,对人工翻译的帮助就更大了。这个观点好像是对的,也好像不对,感觉有点怪怪的。

有时候我就想到每天回家陪孩子学习。每个孩子的学习能力和基础是不一样的。我们可能将小孩找补习班,假定补习班老师水平是没有问题的,如果简单灌鸭式或者不因人而异,补习的效果不太容易达到预期的效果。从这个角度来说,我有个想法,是否存在一种“以人为本”的辅助翻译技术?机器翻译能够帮助人工翻译,这一点大家都不会有太多疑问,关键是如何帮助,如何实现更好的辅助翻译过程?

目前我们研究译后编辑和交互式工作模式,大多时候都是从技术本身出发考虑更多,我们也许应该多问问译员,他们需要哪些帮助,体现以人为本的辅助翻译能力。举个例子,有些译员在翻译一篇文章的时候,如果事先提供一篇机器翻译译文,先阅读一下,快速了解原文的内容,就算后续没有采用译后编辑和交互式机器翻译模式,也可能会提高翻译效率,降低翻译代价,这个也是可能的。毕竟人的精力是有限的,连续工作一天的人工翻译工作,也会非常疲劳,有了机器翻译译文作为参考,也许可以降低工作强度,减少疲劳。

问题是如何体现“以人为本”呢?机器翻译结果作为参考译文,还是作为初稿译文,还是作为候选译文,提供给译员呢?还是说机器翻译作为一个辅助工具,译员需要的时候可以激活使用,也可以不激活。上面提到的,也许译员有些时候需要查单词帮助,有些时候需要查相似句子译文作参考。如果不是为了快速翻译赚钱目的,作为一个职业译员来说,肯定不愿意简单充当一个帮助别人修改译文的角色,这个别人在这里就是机器翻译。也许人工译员对机器翻译结果还有一个信任度的问题。

目前从事人工翻译的译员也许不止几百万乃至几千万,所需要翻译的资料是海量的,人工翻译的代价比较高,降低成本提高效率,肯定是非常有价值的。但最大的问题是机器翻译译文无法保证完全正确,只有通过人工译员校对才有可能。所以如何以人为本辅助翻译,还是机助人译,如何让人工译员能够更好受益于机器翻译,还存在大量挑战性问题等待深入研究。一旦取得新的突破,理论价值和应用价值值得大家期待!




朱靖波教授:


朱靖波博士,小牛翻译创始人、东北大学计算机学院教授、博士生导师、辽宁省语言智能技术创新中心主任、讯飞AI大学首批特聘教授、中国中文信息学会常务理事。曾入选教育部新世纪优秀人才计划和辽宁省百人层次人才计划。1992年开始从事语言分析和机器翻译理论研究工作,发表了200多篇研究论文和一本清华大学出版的专著《自然语言理解》。
 
曾在香港城市大学和美国南加州大学USC/ISI做过访问学者,师从前国际计算语言学学会ACL主席、前国际机器翻译学会主席、Google翻译创始人Franz Joseph Och的博士后导师Prof. Eduard Hovy。主持研制的机器翻译开源系统NiuTrans,免费共享给全球70多个国家3000多个研究机构,2016年荣获国内自然语言处理领域最高科技奖—钱伟长中文信息处理科学技术一等奖。拥有20多项国内和美国发明专利,研究成果多次获得辽宁省科学技术一等和二等奖。主持研制的小牛翻译支持近200种语言互译能力,全球唯一覆盖一带一路和联合国所有会员国官方语言的机器翻译系统,为科大讯飞、金山、小米、华为、国家知识产权局等上百家企事业单位提供机器翻译技术支持与服务。



点击“阅读原文” ,观看直播回放视频
登录查看更多
0

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
打怪升级!2020机器学习工程师技术路线图
专知会员服务
99+阅读 · 2020年6月3日
专知会员服务
201+阅读 · 2020年3月6日
机器翻译深度学习最新综述
专知会员服务
99+阅读 · 2020年2月20日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
自动机器学习:最新进展综述
专知会员服务
120+阅读 · 2019年10月13日
2019 年,最值得回顾的十大 AI 学术观点
AI科技评论
6+阅读 · 2019年12月31日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
光子Ising机的前景光明
中国物理学会期刊网
6+阅读 · 2019年7月17日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
观点 | 计算机视觉,路在何方
微软研究院AI头条
6+阅读 · 2017年6月21日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
5+阅读 · 2018年10月11日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
9+阅读 · 2018年5月7日
Arxiv
4+阅读 · 2018年4月10日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
打怪升级!2020机器学习工程师技术路线图
专知会员服务
99+阅读 · 2020年6月3日
专知会员服务
201+阅读 · 2020年3月6日
机器翻译深度学习最新综述
专知会员服务
99+阅读 · 2020年2月20日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
自动机器学习:最新进展综述
专知会员服务
120+阅读 · 2019年10月13日
相关资讯
2019 年,最值得回顾的十大 AI 学术观点
AI科技评论
6+阅读 · 2019年12月31日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
光子Ising机的前景光明
中国物理学会期刊网
6+阅读 · 2019年7月17日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
观点 | 计算机视觉,路在何方
微软研究院AI头条
6+阅读 · 2017年6月21日
Top
微信扫码咨询专知VIP会员