Emotion detection is of great importance for understanding humans. Constructing annotated datasets to train automated models can be expensive. We explore the efficacy of cross-lingual approaches that would use data from a source language to build models for emotion detection in a target language. We compare three approaches, namely: i) using inherently multilingual models; ii) translating training data into the target language; and iii) using an automatically tagged parallel corpus. In our study, we consider English as the source language with Arabic and Spanish as target languages. We study the effectiveness of different classification models such as BERT and SVMs trained with different features. Our BERT-based monolingual models that are trained on target language data surpass state-of-the-art (SOTA) by 4% and 5% absolute Jaccard score for Arabic and Spanish respectively. Next, we show that using cross-lingual approaches with English data alone, we can achieve more than 90% and 80% relative effectiveness of the Arabic and Spanish BERT models respectively. Lastly, we use LIME to interpret the differences between models.


翻译:感官检测对于理解人类非常重要。 建立附加说明的数据集以培训自动化模型可能费用高昂。 我们探索使用源语言数据建立目标语言情感检测模型的跨语言方法的功效。 我们比较了三种方法,即: (一) 使用固有的多语种模型; (二) 将培训数据转换成目标语言; (三) 使用自动标记的平行材料。 在我们的研究中,我们将英语视为源语言,阿拉伯语和西班牙语视为目标语言。 我们研究了不同分类模型的有效性,如BERT和受过不同特点培训的SVMs。 我们基于BERT的单语模型,其目标语言数据培训的阿拉伯文和西班牙语的绝对雅克卡分数分别比标准(SOTA)高出4%和5%。 其次,我们显示,仅使用英语数据跨语言的方法,我们就能分别实现阿拉伯语和西班牙语BERT模型的90%和80%的相对有效性。 最后,我们使用LIME来解释模型之间的差异。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
55+阅读 · 2021年5月10日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
Arxiv
13+阅读 · 2020年10月19日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2021年5月10日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
Top
微信扫码咨询专知VIP会员