Named entity recognition (NER) is a fundamental component in many applications, such as Web Search and Voice Assistants. Although deep neural networks greatly improve the performance of NER, due to the requirement of large amounts of training data, deep neural networks can hardly scale out to many languages in an industry setting. To tackle this challenge, cross-lingual NER transfers knowledge from a rich-resource language to languages with low resources through pre-trained multilingual language models. Instead of using training data in target languages, cross-lingual NER has to rely on only training data in source languages, and optionally adds the translated training data derived from source languages. However, the existing cross-lingual NER methods do not make good use of rich unlabeled data in target languages, which is relatively easy to collect in industry applications. To address the opportunities and challenges, in this paper we describe our novel practice in Microsoft to leverage such large amounts of unlabeled data in target languages in real production settings. To effectively extract weak supervision signals from the unlabeled data, we develop a novel approach based on the ideas of semi-supervised learning and reinforcement learning. The empirical study on three benchmark data sets verifies that our approach establishes the new state-of-the-art performance with clear edges. Now, the NER techniques reported in this paper are on their way to become a fundamental component for Web ranking, Entity Pane, Answers Triggering, and Question Answering in the Microsoft Bing search engine. Moreover, our techniques will also serve as part of the Spoken Language Understanding module for a commercial voice assistant. We plan to open source the code of the prototype framework after deployment.


翻译:尽管深层神经网络由于需要大量培训数据而大大改善了净减排的绩效,但深层神经网络在行业环境中很难推广到多种语言。为了应对这一挑战,跨语言净减排网络通过预先培训的多语言模式将知识从丰富资源语言转移到资源较少的语言上,通过事先培训的多语种模式,将知识从丰富资源语言转移到资源较少的语言上。除了使用目标语言的培训数据之外,跨语言净减排网络必须仅依靠源语言的培训数据,并可选择地增加来源语言的翻译培训数据。然而,现有的跨语言净减排网络方法并不能很好地使用目标语言的丰富的无标签数据,而这种数据在行业应用中比较容易收集。为了应对机遇和挑战,我们用微软公司的新做法在实际生产环境中利用如此大量的无标签数据。为了有效地从未标注的数据中提取薄弱的监督信号,我们根据半超级搜索和强化源学习的源代码开发了一种新型方法。在三个基准版本的版本的版本战略框架中,现在还用一个基准版本的版本的版本的版本的版本的版本的版本的版本,将用来验证我们的版本文件。

4
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
168+阅读 · 2020年2月13日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
已删除
将门创投
6+阅读 · 2017年7月6日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
168+阅读 · 2020年2月13日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
已删除
将门创投
6+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员