Being able to parse code-switched (CS) utterances, such as Spanish+English or Hindi+English, is essential to democratize task-oriented semantic parsing systems for certain locales. In this work, we focus on Spanglish (Spanish+English) and release a dataset, CSTOP, containing 5800 CS utterances alongside their semantic parses. We examine the CS generalizability of various Cross-lingual (XL) models and exhibit the advantage of pre-trained XL language models when data for only one language is present. As such, we focus on improving the pre-trained models for the case when only English corpus alongside either zero or a few CS training instances are available. We propose two data augmentation methods for the zero-shot and the few-shot settings: fine-tune using translate-and-align and augment using a generation model followed by match-and-filter. Combining the few-shot setting with the above improvements decreases the initial 30-point accuracy gap between the zero-shot and the full-data settings by two thirds.


翻译:能够解析密码转换(CS)语句,例如西班牙语+英语或印地语+英语,对于使某些地方的任务导向语义解析系统民主化至关重要。 在这项工作中,我们侧重于Spanglish(西班牙语+英语)并发布数据集,即SUSP, 包含5800 CS语及其语义剖析。我们检查了多种跨语言(XL)模式的CS通用性,并展示了在只有一种语言的数据存在时受过预先训练的 XL 语言模型的优势。因此,我们侧重于在只有英语材料同时提供零点或少量 CS 培训时改进案件预先培训的模式。我们建议了两种数据增强方法,即:使用翻译和对等的生成模型进行微调,并使用配对和过滤器辅助生成模型。将微小的设定与以上改进相结合,将零点和全数据设置之间的初始30点准确度差距缩小三分之二。

0
下载
关闭预览

相关内容

语义分析的最终目的是理解句子表达的真实语义。但是,语义应该采用什么表示形式一直困扰着研究者们,至今这个问题也没有一个统一的答案。语义角色标注(semantic role labeling)是目前比较成熟的浅层语义分析技术。基于逻辑表达的语义分析也得到学术界的长期关注。
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2019年6月5日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员