AI歌词翻译高手是如何炼成的?

2021 年 6 月 10 日 微信AI


看到翻译后的中文歌词需要多久?

2秒,歌曲播放页面左滑,点击“翻译”按钮,搞定。


把英文歌词翻译成符合语境的中文需要多久?

给我一首歌的时间,我告诉你要多久。


全文共2527个字,读完预计需要4分39秒

随着越来越多英文歌曲被引入国内市场,听英文歌已经成为国内用户的日常。但是部分用户对外语的理解能力有限,需要通过一些翻译后的歌词来了解歌曲的实际内容。但在实际的歌词翻译中,不仅要精准,还要生动,否则就会折损歌曲在艺术方面的完整表达。比如:

I have got your body stuck on my mind

翻译成:你卡在我脑子里了


恰当的翻译:你的身影萦绕在我的心头

点击此处查看恰当的翻译


Who stand by night

翻译成:谁站在奈特旁边


恰当的翻译:他们伫立在黑夜里

点击此处查看恰当的翻译

为了提高歌词的翻译效率,及时将新歌的译文呈现给更多的用户,我们尝试将机器翻译应用到QQ音乐歌词的翻译场景中,通过对翻译引擎的优化迭代,保证了译后歌词的呈现效果,提升歌词翻译效率。为此, 我们联合QQ音乐尝试打造了AI歌词翻译能力

微信歌词翻译引擎 以微信通用翻译引擎为基础,针对音乐歌词翻译场景,从数据增强、训练优化、结果呈现等3个方面进行优化迭代,最终实现对音乐歌词的合理翻译。接下来,我们将从以上3个方面出发,简要地介绍微信歌词翻译引擎的“修炼”过程。

一、数据增强


在音乐歌词场景中,音乐中的歌词内容通常较短,每个时间戳对应的歌词不一定是语义完整的句子,且上下两句歌词之间的语义关系相对更独立。我们针对音乐歌词的特点,设计了以下数据增强技术:

1.1 子句翻译数据抽取


我们依据“对齐一致性”规则,从自有的平行语料中自动抽取子句对齐数据,并采纳和精心设计几种策略,如子句对空扩展、最长子句选择、完整子句断句、处理边界情况以及容错词语对齐错误等,从而提取出相对高质量的子句对齐数据。例如:

A product of those times in other words, rather than Poldark 's , when there were few if any such proto-social democrats to be found in the English squirearchy .

原始整句翻译对:换句话说,这是那个时代的产物,而不是波达克时期的产物,在英国乡绅阶层中几乎找不到这样的原型社会民主人士。


抽取的子句翻译对:

这是那个时代的产物 - A product of those times

换句话说 - in other words


1.2 领域数据


我们使用了小规模的QQ音乐人工翻译数据,网络爬虫单语歌词数据,利用回译(Back Translation)、正向翻译、数据加噪等技术构建伪双语数据。考虑到影视作品的字幕与歌词的特点比较相近,我们也添加了一些影视剧的双语字幕语料。例如:

原文:Why is the sky so blue


增加领域数据前:天空为什么这么蓝

增加领域数据后:为何天空如此蔚蓝


1.3 领域辞典


积累人名、地名、术语等翻译词典,结合拷贝机制来保证这类实体的翻译效果。例如:

原文:Hillsong Young & Free (乐队名)


普通翻译引擎结果:山歌年轻&自由

结合拷贝机制结果:新颂青年&自由


二、训练优化


歌词的含义较为抽象包含一定的感情色彩和意境,通用引擎输出的译文通常比较直白。为了减少模型训练的时间成本,我们采用了训练+精调的方法,以微信通用翻译模型为基础,同时利用少量的歌词翻译数据来优化歌词翻译引擎。

在模型精调时,我们除了使用上述数据增强技术得到的数据,还加入了从通用领域的训练数据中采样出的训练数据,以起到正则效果,保证在通用场景下的泛化性不会大幅降低。翻译模型精调之后,在歌词领域上的翻译效果有非常明显的提升,在通用领域上模型效果只是略微下降。

为缓解精调时领域迁移加剧的暴露偏差问题,我们还引入了一些基于动态调度采样的训练优化技术:

2.1 并行调度采样


简单来说是训练时采用两阶段解码:

1)第一阶段与常规训练时的解码方法相同,即以标准历史作为输入,并行输出每一步的预测概率分布,并将该概率分布乘上对应的目标语言词向量,然后weighted sum出一个合成的词向量;

2)第二阶段训练在解码时输入是从标准历史词向量和第一阶段合成的历史词向量之间调度采样。该方法训练时用第一阶段的解码输出模拟推导时的预测结果,从而起到缓解暴露偏差的作用。

2.2 引入目标端输入抗噪技术


在2.1的基础上, 引入目标端输入抗噪技术,解码端的输入部分从标准历史词和句子中其他位置的词之间做调度采样,使训练出的模型可以抵抗一些错误。细节可参见我们在WMT2020上夺冠中英翻译的技术报告。

2.3 基于模型置信度的调度采样


在2.2的基础上, 引入基于模型置信度的调度采样算法,通过模型预测置信度来衡量模型的实时能力,据此进一步执行细粒度的调度采样策略。即低置信度位置依旧采用标准译文为输入,高置信度位置采用噪声作为输入,其他位置则采用模型译文作为输入。相关工作已被自然语言处理顶会ACL2021接收。

2.4 训练优化之避免语言模型过自信


此外,为了避免引擎产生流利但不忠实的译文,我们在训练优化时尽量避免语言模型过自信。具体地,我们建模了翻译模型和语言模型的预测概率之差,定义为Margin,其与语言模型的过自信程度负相关。基于此,我们设计了基于Margin的词级别训练目标(MTO)和句子级别训练目标(MSO),训练时最大化Margin,来防止语言模型过自信。相关工作已被自然语言处理顶会ACL2021接收。

三、结果呈现


我们在歌词翻译流程中设计了一些特殊的前、后处理策略。歌词中经常包含语气词(例如:“Nah”、“Hmmmmm”、“Eeeek”之类的语气词填充)或者三俗词汇(例如:“f**k”, “sh*t”等),因此:

1、语气词往往不包含实际意义,我们对语气词进行了单独的处理,保留原文的风格。

原文:Oh woah oh oh woah oh oh oh

译文:哦


语气词过滤后,不翻译对应部分。

2、另外,为了避免翻译结果中产生三俗词汇引起不适,我们引入屏蔽机制来保证用户体验。

原文:Rape murder

译文:强奸杀人


屏蔽相关三俗词汇后不展示相关译文。

目前, 微信歌词翻译引擎已经小范围应用于QQ音乐,服务广大用户。通过专业算法和策略制定,微信歌词翻译引擎将为英文歌曲提供高品质高标准的翻译文本,最终提升收听音乐时的用户体验。 大家在QQ音乐中收听歌曲时,遇到有歌词注明“ 以下歌词翻译由微信翻译提供 ”,可以认真阅读品一下AI的翻译本领。


后续,我们将持续对引擎能力进行优化和进一步拓展应用场景。

 微信AI 

不描摹技术的酷炫,不依赖拟人的形态,微信AI是什么?是悄无声息却无处不在,是用技术创造更高效率,是更懂你。


微信AI关注语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域,成果对内应用于微信翻译、微信视频号、微信看一看等业务,对外服务王者荣耀、QQ音乐等产品。


登录查看更多
0

相关内容

最全的正版音乐,最新最热歌曲天天首发更新 · 最大的无损音乐曲库,优质而上乘的听觉享受 · 首创听歌识曲,精准识别此刻播放的歌曲,显示动态歌词,还能立即试听、下载 · 首创翻译歌词,支持数十万首热门英日韩泰歌曲的汉译和音译
【AAAI2022】上下文感知的词语替换与文本溯源
专知会员服务
17+阅读 · 2022年1月23日
算法通关手册(LeetCode)
专知会员服务
159+阅读 · 2022年1月13日
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
专知会员服务
32+阅读 · 2021年10月8日
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
11+阅读 · 2020年11月13日
算法通关手册(LeetCode)
专知
8+阅读 · 2022年1月13日
数据质量漫谈
阿里技术
6+阅读 · 2021年12月26日
这篇文章会不会火,AI掐指一算就知道了
微信AI
3+阅读 · 2020年10月14日
干货|带你愉快的理解CRF
机器学习研究会
32+阅读 · 2017年11月27日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关VIP内容
【AAAI2022】上下文感知的词语替换与文本溯源
专知会员服务
17+阅读 · 2022年1月23日
算法通关手册(LeetCode)
专知会员服务
159+阅读 · 2022年1月13日
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
专知会员服务
32+阅读 · 2021年10月8日
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
11+阅读 · 2020年11月13日
相关资讯
算法通关手册(LeetCode)
专知
8+阅读 · 2022年1月13日
数据质量漫谈
阿里技术
6+阅读 · 2021年12月26日
这篇文章会不会火,AI掐指一算就知道了
微信AI
3+阅读 · 2020年10月14日
干货|带你愉快的理解CRF
机器学习研究会
32+阅读 · 2017年11月27日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员