科大讯飞说“冒充AI”只是个误会，我们又找“真的同传”聊了聊

科大讯飞说“冒充AI”只是个误会，我们又找“真的同传”聊了聊 | 深度

2018 年 9 月 23 日 果壳网

哪个行业会被人工智能消灭？从目前的状况看，至少不会是同传行业。

同传译员Bell Wang指责科大讯飞用人工翻译伪装成AI同传的事儿，大家想必都听说了。果壳针对本次事件的争议焦点——人机耦合，同科大讯飞 AI 研究院联席院长李世鹏进行了独家对话，并听取了北外高翻学院李长栓副院长以及译员张伟、陈老师（化名）等多位翻译界业内人士的声音。

这是一场误会？

9月20日， Bell Wang来到上海国际会议中心，为2018创新与新兴产业发展国际会议（IEID）的高端装备技术与产业分会做现场同传。

在会议现场，他发现科大讯飞在识别出同传译员说的译文后，再将译文投放到屏幕和直播中。翻译工作并不是完全由AI完成。而且，科大讯飞没有提前将详细情况告诉Bell和搭档，就冒名使用了他们的翻译成果，涉嫌侵犯两人的知识产权。

请注意会议的宣传语 | 知乎@Bell Wang

21日晚上八点，讯飞通过电话会议的形式召开新闻发布会，高级副总裁江涛及负责翻译业务的产品经理刘晨璇等参会。

在发布会上，科大讯飞否认相关指责，并声称这是同译员的“误解”：Bell不知道他所在的分会场，人工智能使用的是人机耦合工作模式。据介绍，IEID使用的科大讯飞智能会议系统，有两种工作模式：其一是全自动翻译，即识别演讲者发言，转换成文字并实时翻译，随后投射到大屏幕上；其二为人机耦合，顾名思义，机器识别语音后转录为文字并进行翻译，降低人类同传译员的工作难度。

科大讯飞 AI 研究院联席院长李世鹏：

AI不可能不犯错误

要判断人机耦合是否对译员有帮助，得先了解人机耦合听起来如此高深莫测的词究竟是什么意思。

对此，在当晚八点的新闻发布会前，果壳和科大讯飞 AI 研究院联席院长、前微软亚洲研究院副院长李世鹏进行了独家对话。

李世鹏说，他特别不同意的一点就是宣称机器把所有的事情都做了，机器不会犯错误。“所有的AI都是基于统计上的意义，是有概率的。翻译的正确率，语音识别的正确率都有一个概率在后面。AI不可能不犯错误。”

这就凸显了人机耦合的重要性。

AI翻译棒 | 新浪科技

李世鹏认为，在人工智能时代，人和机器的协同作业尤其重要。现有的AI框架还是基于大数据和深度学习。不管有多少数据，总有一些corner case会漏掉。如果没有一个很好的人机耦合的方式，AI就会失败。有些时候，这些失败是致命的。很多起人工驾驶出的事故，就是因为训练时有些场景没有遇到，机器不知道该怎么判断。现在很多人把人工智能太神化了。人工智能所有的基础，直到今天，还是基于有没有足够的数据，有没有足够的资源去来标注这些数据。就像有些人说的，人工智能的人工成分确实很大。

在现有的框架下，有一点尤其重要：即在人工智能没法处理的时候，人怎么去介入。

李世鹏心目中的人机耦合理想状态是，机器翻译如果犯了一个错误，同译员发现并改正错误，机器以后就不会再犯这个错误。人把危机解决了，同时又让机器多了一个训练的数据。在这样的过程中，AI会越来越好。

同传中的人机耦合，

目前只是一厢情愿

做了十年同传的前中山大学口译老师、现自由译员陈老师曾有和机器“耦合”的经历。会议开始前几天，技术人员拿着好几个机器处理不了的术语来咨询她的意见。她和搭档一一给出了参考译文，并配上了详细的注释，当时还考虑到了字幕的特点，尽量采用了简短、达意的版本。陈老师说：“现场AI展示的这些高难度术语译文，全是我们帮着提前翻的。”

外交部译员张璐 | sohu.com

在人机耦合的过程中，人在帮机器纠错。机器给了人什么？根据科大讯飞发布会的说法，机器在辅助人，“机器给同传作参考……使他们做的更准确，更不容易疲劳”。

可惜，对于这一说法，翻译圈内人士根本不买账。

果壳联系了北外高翻学院的副院长李长栓、其他高校的口译老师以及多位译员，他们表示，“有文字也不看，甚至是闭着眼翻译”，“带稿翻译经常会降低效率”，“科大讯飞根本不了解译员的工作状态，才会认为机器能辅助译员”。

一般演讲者开始讲话两到三秒钟后，同传译员就要开口翻译。这之间的间隔被称为“听说时差”（EVS，Ear-Voice Span）。译员按照听到的原文顺序，不间断地将句子切割成意群和信息单位，再把这些单位联系起来，力求翻译出演讲者的原意。这叫做“顺句驱动”。据从事八年同传工作的张伟对果壳说，译员一般听到一到两个意群就要会开口翻译，在调整逻辑说出话语的同时，耳朵要听下面第三个第四个意群。

图 | LVIV.com

无论处在翻译的什么阶段，一旦听到演讲者另起一个话题，译员就需要在不影响当前翻译的情况下，稍微多分一点精力去演讲者的开头部分。听懂了大致的话题，再收回多分配过去的精力，继续翻译。

请注意，这一过程仅仅发生在几秒钟的时间内。

为了培养“分心”能力，同传译员会做“影子练习”（Shadowing）。练习者听英语录音、半句过后跟着读英语的同时，手写数字。一开始是12345……正着写，熟练之后变成999，998，997……倒着写，或者只写双数/单数。一边听，一边说，一边写，一心三用。

对于熟练的译员来说，翻译近乎一种本能：坐下来就能翻，翻完了就忘。一场会下来，翻的东西基本忘光了。熟练的同传译员甚至可以做到一边听一边翻译，还一边查单词。

很多与会者会佩戴耳机听同传翻译 | cnmisn.com

在整个过程中，目前机器不能起到任何辅助作用。

即便有了机器，也省略不了译员听的环节。因为只有在听了之后，译员才能发现机器语音转写的错误。译员只要听到了信息，就“本能”地开始处理信息、进行翻译。译员和机器干的活儿一样，完全属于重复作业。

即便机器语音转写能保证100%的正确率，对译者来说，看文字也是干扰。听的时候，人能更简明扼要地抓住一段话的重点，但是看文字的时候，人会试图把每一个细节都翻译出来，反而跟不上发言者的速度。一位译员说，有看字幕的功夫，“闭着眼，听清楚，张嘴说，活都齐了！”

更为重要的是，参与过AI翻译在场、不发耳机的会议的同传译员纷纷表示，在同传箱里，根本看不清机器转写给出的字幕。这怎么能叫人机耦合？

同传译员会在同传箱里工作 | cscbeijing.com

陈老师为果壳描述了会场的情况：大多数情况下，AI字幕都投放在会场讲台上方的主屏幕上，而流动同传箱的搭建往往离讲台比较远，要么在会场最后方，要么在会场一侧。译员看不清楚屏幕上闪现的字幕。如果相关公司真的认为屏幕上展现的信息对译员有帮助，应该在箱子里放一个屏幕，专门滚动字幕。陈老师说：“事实上，我身边的各位同行也是看到讯飞这两天的回应文，才恍然：‘哦，原来我们也是你们的服务对象啊’？”

人工智能翻译取代人类？

虽然圈外人动不动就惊呼“翻译这个行当要消失了”、“人工智能翻译要取代人类了”，但在翻译圈内，大家心态相当乐观，一致认为，译员的饭碗稳得很，绝不会被机器抢走。

在业内人士看来，即使听懂了每一个单词，人工智能翻译仍有三大障碍无法跨越。

图 | Google Cloud

一是一词多义。北外高翻学院的李长栓给我们举了个例子。Mission一词，基本意思是“交给一个人或一群人的一项重要任务，通常需要旅行到国外完成”（牛津英语词典）。在这个意思基础上，引申出“使命”“任务”“特派任务”“出差”“使团”“代表团”“特派团”“传教团”“访问团”等具体意思。译员必须根据上下文判断翻译为“使命”还是“使团”，是“传教团”还是“特派团”。这个判断并非一目了然。如果交给机器翻译，机器通常会根据统计得出的概率，选择最常见的那个意思，而这往往会出错。

二是复杂的句子结构。甚至都不需要过分复杂的句子，只是酒店电水壶上贴的一句简单的功能性指示语，“请阁下把自来水用电水壶烧开后饮用”，机器翻译都不尽如人意。

必应：

爱词霸：

有道：

Google：

百度：

三是变化多端的现场。

有学者研究发现，英文演讲者的语速在120个单词/每分钟，同传是最精准。请注意，这里的最精准不是指精度达到100%，而是80%到95%。就算在最适宜的速度，人类译员也会丢失信息。如果演讲者的语速达到每分钟180个单词，译员会大面积漏词漏句；如果速度达到每分钟200个单词，人类译员基本就跟不上了。

而机器不一样。就算演讲者说得再快，机器都能抓住每一个单词，不会遗漏任何一个信息点。

这本该是机器的优势，但目前来看，反而成了劣势。译员在现场不光要翻译出信息，还要让翻译出来的中文长度和英文原文的长度尽可能靠近。一个英文的缩写专有名词，中文翻译过来可能有六七个字长。这时，译员会临时调整，压缩简化后面的信息。一般情况下，演讲者发言结束的二到三秒后，译员也要结束发言。如果拖了五秒才结束，“那就完了。这五秒钟就像永恒一样漫长。”译员张伟说。

同声传译现场 | Consultancy Register

而机器没有应变的能力，只会尽职地听出每个字、再进行翻译。这就导致机器翻译出来的信息量过大，让观众听得吃力。张伟说：“逐字逐词译出来是能译出来，能不能被理解被消化，是另外一回事。为了让观众听起来舒服，译员随时在做取舍。”

同传译员的随机应变甚至可以说到了“随意”的程度。如果演讲者精神饱满地跟与会者打招呼，译员也会调整语气，喊出早上好。译员能够模仿演讲者的语气，在他强调的时候强调，在他讲段子的时候幽默。

这也是为什么同传需要坐在会场后方的一个“箱子”（同传箱）里观看会场情况的原因：他们需要感知会场的氛围。

这都是冰冷的机器没办法做到的。

《集异璧》作者侯世达(Douglas Hofstadter）在之前同果壳对话时曾提到，翻译软件根本就不理解任何东西。“零。它不知道有这样一个世界，有这么多事情正在其中发生，不知道有过去和未来，不知道有大有小有上有下。它什么都不知道。它所知道的一切就只是字词。”

——————

在博鳌2018之《让人工智能“落地”》的论坛上，科大讯飞董事长刘庆峰表示，科大讯飞的翻译机已经达到了大学六级水平，两年之内会达到英语专业八级水平。

对此，从事同声传译八年的张伟给出的回复是：“同传是爷爷，专业八级是孙子。”

北外高翻学院的李长栓曾受邀参加腾讯举办的智能翻译研讨会。听完腾讯方面的介绍后，李长栓觉得“非常可笑”。他认为，在翻译领域，不会有机器取代人类的那一天。

对于李长栓的评价，李世鹏给出的回复是：“我们一直认为现阶段的AI翻译只能是辅助工具，至少在人工智能新的框架到来之前是这样的。”

后记

“讯飞”事件爆发后，从译员们的反应中不难看出，在AI翻译这个特殊领域中，技术与翻译专家们存在着不小的矛盾。

Bell Wang 在知乎专栏对此事的评价

需要指出的是，果壳接触过的几位翻译业内人士，反对的都不是技术进步，而是虚假宣传。陈老师表示：“AI犯错误也没有什么，很正常。AI跟人一样，也会成长，会进步，谷歌翻译的进步就很让人惊喜，有效提升了我们译前准备的效率。凡是踏踏实实做技术的公司，我们都打心底里敬佩，并愿意与之合作。”张伟也说，他在任务急时间紧的情况下，会使用“翻译狗”来翻译主办方提供的资料，“确实给了我很大的帮助”。

不可否认的是，AI翻译的实际表现不够优秀。这跟“翻译”这项任务的特殊性有很大关系。

MIT教授、未来生命研究所创始人马克斯 •泰格马克（Max Tegmark）在其著作《生命3.0》中，给了“智能”和“人工智能”如下的定义和分类：

智能：完成复杂目标的能力
狭义智能：只能完成非常特定的目标，如下棋和打电子游戏
广义智能：人类的智能非常“广义”，“目标”也更加复杂

图 | kejilie.com

从这个角度，“翻译”这项任务可谓相当的复杂：它绝不仅仅是简单的文本的对应，而是需要综合文化、语境、专业知识、情绪、心理、认知、个人语言特点等无数复杂因素，方能有效地完成“目标”。换句话说，AI想做同传，可能需要在更复杂的“通用人工智能”技术突破的情况下才能实现。

实际上，李世鹏也同果壳谈到了这个问题。他认为，如果人工智能翻译有突破，一定是在框架上有所突破：不是基于现有的大数据加深度学习的框架，而是从人的认知层面出发，找到不依靠数据的AI新框架。科大讯飞正在朝这个方向努力。“我们做技术的人，了解情况。我们因为乐观，因为有信心，才会在这条路上越走越远。”

无论此事最后以何种方式落幕，希望能翻译人士的技能与工作得到充分的尊重，更希望人工智能领域有突破性进展的那一天早点到来。

（感谢北外高翻学院行政秘书张阳老师、蒋一凡律师、同济大学知识产权专业的罗凯忠，以及Catherine和luna对本文提供的帮助）

作者: 雪竹、樟脑玩、武权

编辑：Mo

一个AI

认同一个观点：拒绝神化AI。再有来找我算命的，我就不客气了！

本文来自果壳，谢绝转载.如有需要请联系sns@guokr.com

（欢迎转发到朋友圈~）

果壳

ID：Guokr42

果壳整天都在科普些啥啊！

吓得我二维码都歪了！