作者 | 王泽洋
单位 | 小牛翻译
编辑 | 唐里
本文为东北大学自然语言处理实验室研究生王泽洋投稿,王泽洋研究方向为机器翻译。
小牛翻译,核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于1980年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译、语言分析、文本挖掘等。团队研发的支持140种语言互译的小牛翻译系统已经得到广泛应用,并研发了小牛翻译云(https://niutrans.vip)让机器翻译技术赋能全球企业。
在BERT中,每个样本是用一种语言构建的。XLM对它的改进是每个训练样本都包含两种语言的相同文本。与BERT一样,该模型的目标是预测被屏蔽的词,但采用新的体系结构,该模型可以使用一种语言的上下文来预测另一种语言的词。因为不同语种的被屏蔽词是不同的(随机)。改造后的BERT表示为翻TLM(Translation Language Model),而带有BPE输入的“原始” BERT表示为MLM(Masked Language Model)。通过训练MLM和TLM并在它们之间交替进行训练来训练完整的模型。
点击“阅读原文”加入 NLP 论文讨论小组