做好语音翻译无捷径！语音识别是前提，实时翻译亟待攻破

2019 年 5 月 9 日 AI前线

整理 | Debra

采访嘉宾 | 科大讯飞北京研究院院长王士进

编辑 | Natalie

AI 前线导读： 在人工智能领域，语音翻译已经不是一个新鲜词汇，这门技术已经广泛应用于我们的日常生活和会议等场景中，且仍具有巨大的应用潜力等待挖掘。现在，语音翻译技术的发展现状如何？此前面临的难点有所突破了吗？今天，AI 前线将通过科大讯飞 AI 研究院副院长王士进，来深入了解这一领域的进步。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

语音翻译技术现状

“目前业内语音翻译主流技术路线还是以语音识别 + 机器翻译的级联方式为主，在部分场景下已经达到了实用的门槛，”王士进在采访中透露。但用过语音翻译产品的人应该都了解，在实际应用场景中，语音翻译技术并不总是让人满意。王士进也坦诚，语音翻译技术想要进一步发展，口语的不规范性、口音、方言的识别，专业领域的翻译效果、翻译的实时性等问题还亟待解决。

在产品层面上，目前的语音翻译产品主要有交替传译和同声传译两种形态。交替传译类有各类翻译机、同声传译类产品，如讯飞的听见同传，能够实现同步文字直播和实时翻译。

同样地，市面上的语音翻译产品并不总能让用户满意。以讯飞翻译机为例，虽然据科大讯飞称这个产品的用户满意度为 99%，但在同声传译等场景下，目前只能做到帮助用户更方便地理解内容，但有时识别效果和翻译效果还会出现一些问题。当然，这也是目前所有同传产品所面临的实际问题。

另外，在语音翻译领域还有一种现象：一些公司宣称在重大比赛项目中获得很好的成绩，准确率再创新高，等等，但当在实际场景中一应用，往往会发现效果并不是很理想，甚至会出现低级错误，比如在英翻中任务中，翻译准确率会大打折扣。那么，这是否意味着仅技术层面的完善并不代表实际应用效果一定会好？

对此，王士进表示，不同语种的翻译效果确实会根据公司的业务发展需要进行侧重优化，最终的效果也是识别、翻译等技术共同决定的。

当然，技术可能只是一方面，另一个很重要的是“涟漪效应”。（注：“涟漪效应”是互联网思维在核心技术研究中的应用，用户一旦使用，数据会送到云计算服务器，云计算服务器可以立即学习更新，利用涟漪效应，可以把不熟的、需要在真实环境中训练出来的系统，真正培养出来）。这是互联网思维在核心技术研究中的应用。为什么现在的实验室，不能提出最好的算法，主要是没有大数据和涟漪效应。在移动互联网下，因为软件免费，用户愿意花时间用这些产品，且不会产生抱怨或反抗。当推出一个不好的人工智能算法（包括图像、语音、自然语言理解）时，就像水滴滴在水面，只有一小部分人才会用到。一旦使用，数据会送到云计算服务器，云计算服务器可以立即学习更新。当水波扩大到更广泛的人群时，系统的性能已经提高。水波的振幅就是系统的误差。当水波扩散，振幅越来越低。当水波纹扩散到第 1000 万人时，10000001 个人是第一次使用这一系统，他会觉得系统很好。利用涟漪效应，可以把不熟的、需要在真实环境中训练出来的系统，真正培养出来。在实验室中，可以做人工智能的算法。

由此可见，高超的技术对于一个完善的用户产品来说必不可少，但技术高超并不意味着产品体验一定好，还需要经过不断的涟漪效应持续迭代达到好用。

循序渐进和里程碑式突破

回首语音翻译技术从研究到应用的过程，从最初实验室中的设想到走进寻常百姓家，这门技术的发展实际上历经了几个重要的里程碑式突破，才达到如今的效果。

王士进认为，从语音识别上来说，从上世纪 80 年代的 GMM-HMM 框架，到 10 年前的 DNN-HMM 框架，再到这两年的 Encoder-Decoder 框架，语音识别效果实现了阶跃式的提升，使得语音翻译具备了很好的前提条件；而从机器翻译上来说，从最初的规则翻译，到后来开始产业化的统计机器翻译，再到现在的神经机器翻译，特别是神经机器翻译技术，给机器翻译带来了巨大的提升，使得在日常口语、新闻等场景下，机器翻译已经达到了实用的门槛。

难点和突破口

然而，语音翻译和机器翻译的发展并非一帆风顺，即使是现在，这一领域仍然面临着很多待啃的“硬骨头”。

首先是 识别错误带来的级联影响，包括方言、口语化等会影响识别的输出展示和翻译的输入；其次是 同声传译中的实时性问题，如何能平衡翻译效果和翻译实时性是目前的一大难题。

知道问题在哪是第一步，第二步就是如何克服这些问题。这需要从这个链条上寻找相对薄弱的突破口。

对此，王士进认为，做好语音识别是前提，包括方言识别、对口音的容错、对口语化识别结果的后处理规整等。其次是 渐进式解码技术，解决翻译实时性的问题。

案例研究：讯飞最新翻译引擎 TNMT 分析

一个好的语音翻译产品离不开一个好的翻译引擎。现在，我们以科大讯飞最新一代语音翻译引擎 TNMT 为例，来了解语音翻译背后的技术。

据王士进介绍，TNMT 采用最强大的语音识别技术和神经机器翻译技术，主要有语音识别 -> 语音后处理 -> 机器翻译 -> 语音合成级联方式组成，目前使用业内主流的识别与翻译级联方式完成最终的能力输出。

更重要的是，讯飞基于目前的语音翻译产品形成了产品优化到技术更新的迭代闭环，有了可以依托的数据涟漪效应平台，能够使得效果不断迭代优化，也是讯飞语音翻译效果能够不断优化的重要保障。

上述因素加上讯飞积累的大规模训练数据，讯飞在口语旅游等场景达到较好的水平，为出国旅游辅助交流提供了便利。

未来趋势

王士进认为，语音翻译技术未来的发展趋势，一方面是在复杂环境下的语音识别，语音翻译如果想进一步扩大应用场景，这点首先要解决好；另外，如何解决低资源语音翻译技术难题也是一个重点，很多语种有很大的价值和前景，但是目前的资源是比较少的；最后，是端到端的语音翻译技术，实现直接从原始语音到目标译文的翻译，相信这将会是未来语音翻译的发展方向。端到端语音翻译技术路线，是通过构造一个完整的神经网络模型，联合优化语音识别、识别后处理和机器翻译，建立源语言语音信号到目标语言文字的映射关系，进而实现从原始语音到目标译文的翻译。这提供了一种解决语音翻译的新思路，而且从目前看是初步可行的。一旦技术研究成功，理论上可以让语音翻译更准更快，未来也将为翻译机器性能的提升带来极大促进。

采访嘉宾

王士进，科大讯飞北京研究院院长、AI 研究院副院长。2003 年毕业于中国科学技术大学，获电子科学与技术工学学士学位，2008 年获得中科院自动化所模式识别与智能系统博士学位。研究兴趣包括语音信号处理、自然语言处理、智慧教育等人工智能技术，在 ICASSP、Interspeech、ACL、COLING、NAACL、Computer Speech and Language 等期刊会议发表数十篇论文，目前还担任中国人工智能产业发展联盟专家委员会委员、技术与产业工作组副组长。

另外，王士进博士将在 QCon 全球软件开发大会（广州站）分享题为「语音翻译技术进展及应用」的演讲，对 NLP 和语音技术感兴趣的同学可以重点关注。

活动推荐

QCon 广州站日程上线，部分精彩内容提前剧透：