机器翻译,能有多热血?

2021 年 11 月 5 日 微信AI


屏幕上的榜单里,一个“36.1”的BLEU分数很是刺眼。

yj和xfeng看着这个数字,心上像是被铁锤重重地敲了一下。

他们所在的房间,就是2021年WMT英中翻译赛道的比赛现场。于此同时,全球各地还有很多像这样的房间,里面是来自各地的科技团队,紧张地围绕主办方给出的测试集训练相应的模型,并且尽可能让自己的模型得分——BLEU分超越其他团队。

这是一个线上的战场,无声的硝烟中,“36.1”如同一员猛将渐渐显出身影,挡在微信团队面前。而被微信翻译团队寄予厚望的模型,却只达到“35.8”的BLEU分数,在日常生活中看起来微不足道的0.3,在WMT赛场上却成为一道技术天堑。

第二次参加WMT的微信翻译团队,迎来了征途上最强大的对手。故事要从一年前拿下第一个冠军开始说起。



WMT是由国际计算语言学协会(The Association for Computational Linguistics,ACL)举办的国际机器翻译比赛,自2006年创办至今,WMT已经成功举办16届。大赛每年都吸引了众多来自全球的企业、科研机构和高校所组成的顶尖团队。


一年前,微信翻译团队在队长fand的带领下,第一次参加WMT。「参加」本身已经是微信事业群业务团队中少有的动作。“国内做翻译有一点知名度的公司都参加过WMT,有的参加一次或者一个方向就结束了,我们参加两次,让微信翻译的品牌在国际赛事会议上给大家留下一个印象。”


当时还是实习生的yj和xfeng,跟着其他前辈一次来到了WMT。xfeng觉得很刺激。“在较小数据和较小的模型上做翻译,就像在一个60分的基础上提升,可能会很容易到70分、80分。在特别大的数据和特别大的参数量下的翻译场景,相当于基础模型本身就到了90分,找到依然能够奏效的方法很不容易,实现了之后会很有成就感。”xfeng兴奋地比划道。


前辈们在前面冲锋,实习生们在后面打辅助,微信团队第一次参加比赛以微弱的优势险胜,拿到了中英翻译赛道的冠军。


“去年在竞争最激烈的中英方向上已经夺冠,证明自己在这块的实力了,所以我们今年要参加更多赛道。”xfeng说道。于是一年后,转正的实习生们变成了旗手,加上队长和新队员cardl、soulc,微信翻译团队选择了英中、日英、英日和英德受限资源翻译四个新赛道。



在WMT赛程中,参赛者在线提交机器翻译结果后,组委会根据在国际上具有广泛认可度的BLEU自动评估指标,对参赛者提交的机器译文和标准答案进行拟合计算,拟合程度高者排在前面。

所以yj明白,他们尽可能确保处理数据、训练模型、领域迁移和模型集成等每个流程都做得足够好,让每个细节都做到完美,追求极致的态度才能取得好的效果。

打榜开始前的这段时间里,微信翻译团队花了大量的时间过滤数据、改进模型,“前面都是勤勤恳恳,像个老黄牛一样,一点点抠。”

在准备英中翻译比赛的过程中,xfeng负责靠前的流程,初步处理训练数据,yj则接在他的流程之后,输出最终的结果。团队前后用了超过500个模型,每个模型里平均有5、6亿的参数量,伪数据规模约20亿句对。

虽然负责不同的赛道,但是微信翻译团队每周都会开一次汇报会,各自报一下自己达到的数据新高。“随着接近尾声,开会的频率越来越高,一周两次。”负责英德赛道的soulc回忆道,“我们都在不同的地方进行探索,获得一些成功经验之后提取出来,直接在其他方向上进行实验,避免不同人重复工作。这样才能起到团队作战的力量最大化的作用。”


微信翻译参赛团队合照



沿着去年的经验来到了新赛道,xfeng和yj遇到了不少需要重新解决的问题。yj无奈一笑:“去年是最后一两天才有‘一波一折’,今年是真正的一波三折。”

比赛日倒数七天,挫折接连而至。

按照往年的参赛经验,相邻几届的比赛测试集一般较为相似,所以微信翻译团队以2020年的测试集为基础,做了许多调优和测试,一段时间后,团队已经把基于2020年测试集得出的BLEU分推到了超过去年第一名1.5分的水平,在WMT比赛中,超0.5分就已经算是较为明显的差异了。

到了打榜环节,微信参赛团队领到2021年的新测试集,规划好提交策略之后,他们首先提交了一个大家认为潜力比较高的模型,结果却大跌眼镜:分数并没有他们预期的那么高。yj沮丧地说:“辛辛苦苦搞了半年,我们寄予厚望的东西,提交上去结果不咋地。”


微信翻译团队用到的一项自研的模型训练策略:模型做完预测后,将预测结果再输入模型,从而使得模型可以学会抵抗自身的错误。

此时正是WMT比赛的打榜阶段,比赛成绩实时更新,每个比赛队伍只有七次提交机会,犹如田忌赛马。第一轮就摔跟头,微信翻译团队的策略被打乱了。

英德赛道和英日赛道同样遇到强敌。cardl一脸疲惫:“整个比赛期间考验最大的是体力和精神上的,前几天还好,从第四天开始,英日赛道的排名就站不住了,那天晚上开始,第二名每天大概12点提交一次,基本都是在快睡觉的时候,好像跟我们有时差一样,我们睡觉的时候他上班,提交一个好的结果。所以到后面几天我们一般都是凌晨3点钟测试,上午10点交。”

英德赛道的soulc情况类似。“自己提交了一个结果之后,比其他团队高出挺多分数还是挺高兴的,结果第二天他们就放大招了,搞得自己很慌,开始每天回去得很晚。”

各个赛道的比赛都是不进则退,英中赛道的xfeng和yj来不及难过太久,凑在一块开始讨论。“可能并不是我们的模型太弱了,是有些关键点、关键要素没有处理好,导致模型的潜力没有发挥出来。”

分析之后,两人稳住阵脚,开始着手调整模型的组合。“我们从500多个模型中挑最好的组合出来,成为最终提交的结果。当时很慌的是,搜索模型需要花费很多次数去验证,如果我们的筛选指标就已经不对了,遇到稍微大规模一点的数我都没办法做出结果。”

有了第一次提交的教训,他们察觉到最新的测试集与去年的分布规律有所不同,随即调整了模型优化方向。

在大家自信心开始重启时,一个来自对手的36.1分已经在第一名的位置逗留了很长时间。

团队调整解码策略之后,通宵达旦地花了四天时间,借助去年自研的集成模型搜索策略,从500多个模型中找出了最适合的模型组合,提交之后得到了36.4的BLEU分成功登顶,超过第二名约0.3分。



这时比赛已经进入中后期,这样大的分数差距看起来很难跨越了。熬了四天的队员们回去终于睡了一个踏实觉。

早上起床之后,队员们洗漱完打开比赛页面循例查看榜单,却一下子傻眼了:第一名的分数已经赫然变成了36.7,足足超过了微信团队0.3分!

队友们一下子被这反转打懵了。比赛期间,所有参赛队伍都会匿名,当中不排除有来自Facebook等科技公司的资深比赛团队,才刚参加第二次的微信翻译团队本就已经尽了全力,这个不知名的对手,偏偏就像在等着他们费九牛二虎之力亮出底牌,然后轻轻松松就反超了一大截。

英中翻译是微信翻译最大的流量来源,在团队心目中,英中翻译的表现就是微信翻译的门面。为此,在参赛之前,yj和xfeng还向队长立过军令状,必须要把第一拿下。



面对未知又强大的对手,两人在挫败当中生出了些许不甘,他们憋着一股劲,重新投入到现有的技术中。“这个比赛一定要赢,没有底牌,我们就创造底牌。”

没有新的技术的情况下,yj和xfeng和队长fand不断头脑风暴。“我们打通任督二脉,把自己大脑的效率拉满,尝试找到新的杀手锏。”

也许是因为前期已经思考得足够充分,一个灵感跳进了大家的脑海里。

“模型机集成学习最基础的要点,就是多样的模型合起来效果更好,相当于‘三个臭皮匠,顶个诸葛亮’。模型的多样性很重要,但同时单个模型的效果要好才行。去年我们认为相似度是很重要的,越不相似的集成效果越好。今年额外考虑了模型在2019和2020年两个测试集的表现,从三方面综合衡量模型的性能,最后合成一个最终分数,排序后把最高的抽出来,再去挑跟它差异最大的模型,出来的结果几乎就是最好的集成结果。”  

举一个通俗的例子,相当于有100个小朋友,每个人都有自己擅长的技能。过去的方法时候对小朋友统一考试,然后选出成绩最高的五位,实际上这样选出来的同学只是学习好,缺少其他技能。现在的新方法是,首先先选一个综合能力最强、技能人无我有的小朋友作为中心,接着从剩下小朋友里选出能力最强、同时和中心差异最大的下一个小朋友,以此类推,不仅考虑了小朋友各自的能力,还考虑了大家的协作能力。


模型Self-BLEU示意图:代表的是模型之间相似度的衡量,颜色越浅,表示模型相似度越低,组合起来集成效果可能越好。

虽然思路上看起来十分可行,但队员们依然十分忐忑。xfeng将手里数百个模型重新刷新后,yj再按照新方法输出结果。提交结果时,已经是凌晨将近四点,yj觉得大脑像是一团浆糊。“我已经尽力了,我能想到的方法、能开发的极限也就到这儿了。说实话,我并没有十足的底气,虽然我喊口号说我一定能赢,但是心里也是没底的。”

出结果的五秒等待时间里,就像过了五年一样漫长。屏幕上出现了一个数字:36.9!瞬间赶超第一名0.2分!

那一刹那,团队成员们情不自禁地紧紧抱在了一起,眼睛甚至湿润了。“我觉得快要哭出来了,整个人像得救了一样。”xfeng说道,“那天晚上本来以为能睡个踏实觉的,我反而没怎么睡好。”

这时候,已经是打榜第七天的凌晨,胜局已定。那个曾经强大的对手,最终成绩停留在36.7。

回忆这段历程,那个凌晨还是让两人历历在目。“WMT就像是一个投名状,证明了我们有能力做这个事情。”yj说。

与此同时,负责英德赛道的soulc和负责英日赛道的cardl也有惊无险地顺利夺得了赛道冠军。

团队希望,以WMT为起点,让微信翻译能够走得更远。“我们既然在比赛上证明了技术实力,就更希望微信翻译的技术能够服务到更多的其他兄弟部门,跟他们一起‘梦幻联动’,拓展新的业务场景。”

想了解本次WMT更多技术细节,还可以点击 蓝字 阅读微信翻译团队本次比赛的技术分享。

内容转自公众号:这里是微信G

 微信AI 

不描摹技术的酷炫,不依赖拟人的形态,微信AI是什么?是悄无声息却无处不在,是用技术创造更高效率,是更懂你。


微信AI关注语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域,成果对内应用于微信翻译、微信视频号、微信看一看等业务,对外服务王者荣耀、QQ音乐等产品。


登录查看更多
0

相关内容

「机器翻译评测研究」最新2022综述
专知会员服务
36+阅读 · 2022年3月13日
专知会员服务
21+阅读 · 2021年10月8日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
26+阅读 · 2020年9月9日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
工业级机器翻译研究与应用
专知
1+阅读 · 2021年3月30日
微信AI夺冠WMT2020国际机器翻译大赛中英方向
自然语言处理中注意力机制综述
Python开发者
11+阅读 · 2019年1月31日
清华大学NLP组年末巨献:机器翻译必读论文列表
机器之心
13+阅读 · 2018年12月30日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
2+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
15+阅读 · 2019年4月4日
VIP会员
相关VIP内容
「机器翻译评测研究」最新2022综述
专知会员服务
36+阅读 · 2022年3月13日
专知会员服务
21+阅读 · 2021年10月8日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
26+阅读 · 2020年9月9日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员