亚马逊NAACL新论文:如何教Alexa语音助手快速理解新语言

【导读】随着亚马逊Alexa语音助手在越来越多的国家发布,如何快速部署新的翻译模型在新的语言上成为需要考虑的重要因素。亚马逊新论文提出使用成熟的机器翻译模型来提升对新语言的的理解能力,文章将发表在即将召开的NAACL2018上。



论文: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System

链接:https://arxiv.org/pdf/1805.09119.pdf


作者 | Penny Karanasou

编译 | 专知

翻译 | Mandy, Sanglei


Machine Translation Accelerates How Alexa Learns New Languages


随着支持Alexa的设备不断扩展到新的国家,我们提出了一种在新语言中快速部署机器训练模型的方法,旨在更高效地将Alexa带给全球的各种语言新客户。我们将在下周举行的第16届NAACL-HLT计算语言学协会北美分会年度会议上介绍我们的方法。


从零开始构建一个自然语言理解(NLU)模型需要收集和标注大量的训练数据,这对标注者和科学家来说都是一个巨大的时间负担,而且这个机制也不会扩展到新语言中。一个明显的解决方案是尝试利用已用于训练其他语言的NLU模型的大型数据集。在这项工作中,我们使用机器翻译(MT)将现有数据源翻译成目标语言,然后使用翻译后的数据来引导一个NLU系统。


在新语言中训练NLU模型的一种常见方式是使用形式语法(formal grammar),一组句法和语义规则,加上标注有语义信息的词汇,可以产生任意数量的在语法和语义上有效句子。尽管比标注大量数据集花费的时间更少,但这个过程需要语言专家来构建能够为目标应用程序提供良好覆盖率的语法。


一旦这个第一个系统达到一定的性能阈值,它就可以与beta用户共享。 Beta用户的查询当然会比人工生成的数据更能代表真实用户。然后,所有现有的数据源都被用来训练系统,直到它达到一个新的、更高的性能阈值,这个时候通常可供客户使用。一旦客户开始使用该系统,他们的交互会产生更多的训练数据。


然而,为了获得足够多的真实的训练数据,可能需要花费大量的时间和标注才能实现Alexa客户在新语言中所期望的功能覆盖类型。


机器翻译可以说是快速将NLU系统扩展到新语言的一个有用工具,并且提供所有已支持语言中可用的Alexa功能。在本文中,我们使用一个巨大的英语话语数据集来引导德语NLU系统。


此外,我们还探索自动识别“好”的翻译的方法,即提高NLU性能的翻译方法。首先,我们研究基于MT质量的过滤,根据MT模型生成的概率分数对翻译进行评级。接下来,我们研究基于语义准确性的过滤。为了测量这一点,我们使用机器翻译的文本,自动将其转换回原来的语言,然后在结果上重新运行NLU系统。根据新的语义标签与原始标签的吻合程度来对翻译进行评分。


最后,我们将一些语言特定的后处理( post-processing)应用于翻译输出。具体来说,我们使用目标目录来重新采样翻译后的数据。例如,我们会自动将德国城市的名称替换为原始话语中提及的美国城市的名称,以更好地模拟德国用户的数据。此外,我们选择保留某些类型的词,如歌曲和艺术家姓名,未翻译。例如,如果原始话语是“Play music by Queen”,则系统不会将艺术家姓名“Queen”翻译成德语单词“Königin”。


在我们的实验中(我们在论文中提及),在MT数据上训练的系统比在语法生成的数据上训练的系统表现要好得多,而且它们的性能甚至超越了一套训练了10,000个手工标注的德语单词的系统。应用滤波和后处理技术进一步提高了结果。


总的来说,这项工作表明,MT的使用可以缩短语法生成的第一个长阶段,并为一种新的语言收集内部数据。此外,MT还可以更快地为客户提供更多的功能,因为所有支持语言的现有功能的数据都可以立即翻译成新的语言。


Penny Karanasou是亚马逊的机器学习科学家。她和同事们将在即将召开的NAACL会议上介绍他们的工作。


Paper: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System


论文摘要:

本文了使用机器翻译(MT)在新语言中快速部署自然语言理解(NLU)系统。 我们的目标是减少为新语言获取标注语料库所需的成本和时间,同时仍然具有足够好的效果来应答用户的语音请求。 文章中调研了多种数据过滤和特定语言的后处理方法,这些方法都是为了改善机器翻译的性能。 我们在大规模的NLU任务中对这些方法进行了测试,这个任务主要是将约1000万条训练语句从英语翻译成德语。 结果显示,在语法和内部数据收集方法的基础上使用MT数据可可以取得很大的性能改进,同时大大减少了人工操作。 过滤和后处理方法都对结果的提升做出了贡献。


原文链接:

https://developer.amazon.com/blogs/alexa/post/7dde86fa-0a4f-4984-82d1-7a7d1282fb0c/machine-translation-accelerates-how-alexa-learns-new-languages


更多专业AI教程资料请加入专知人工智能知识星球群获取,扫描下面二维码即可!

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能知识星球服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知


-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员