The state of art natural language processing systems relies on sizable training datasets to achieve high performance. Lack of such datasets in the specialized low resource domains lead to suboptimal performance. In this work, we adapt backtranslation to generate high quality and linguistically diverse synthetic data for low-resource named entity recognition. We perform experiments on two datasets from the materials science (MaSciP) and biomedical domains (S800). The empirical results demonstrate the effectiveness of our proposed augmentation strategy, particularly in the low-resource scenario.


翻译:现代自然语言处理系统的状况依靠大量培训数据集才能取得高性能。在专门的低资源领域缺乏这类数据集,导致业绩欠佳。在这项工作中,我们调整回译,以产生高质量和语言多样性的合成数据,供低资源命名实体识别。我们实验了材料科学(MaSciP)和生物医学领域(S800)的两套数据集。经验结果显示,我们提议的扩增战略,特别是在低资源情景下,是有效的。

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2021年6月3日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员