The explosion of user-generated content (UGC)--e.g. social media posts, comments, and reviews--has motivated the development of NLP applications tailored to these types of informal texts. Prevalent among these applications have been sentiment analysis and machine translation (MT). Grounded in the observation that UGC features highly idiomatic, sentiment-charged language, we propose a decoder-side approach that incorporates automatic sentiment scoring into the MT candidate selection process. We train separate English and Spanish sentiment classifiers, then, using n-best candidates generated by a baseline MT model with beam search, select the candidate that minimizes the absolute difference between the sentiment score of the source sentence and that of the translation, and perform a human evaluation to assess the produced translations. Unlike previous work, we select this minimally divergent translation by considering the sentiment scores of the source sentence and translation on a continuous interval, rather than using e.g. binary classification, allowing for more fine-grained selection of translation candidates. The results of human evaluations show that, in comparison to the open-source MT baseline model on top of which our sentiment-based pipeline is built, our pipeline produces more accurate translations of colloquial, sentiment-heavy source texts.


翻译:用户生成内容(UGC)的爆炸性(UGC) -- -- 例如,社交媒体文章、评论和评论的爆炸性(UGC) -- -- 激发了针对这些类型的非正式文本专门设计的NLP应用程序的开发。这些应用程序中最受重视的是情绪分析和机器翻译(MT)。我们提出一个解码方办法,将自动情绪评分纳入MT候选人甄选过程。然后,我们用波音搜索基准MT模型生成的最佳候选人来培训英文和西班牙情绪分类人员,选择能够最大限度地减少源码句和翻译的绝对情绪分数差异的候选人,并进行人文评价以评估所制作的翻译。与以前的工作不同,我们选择这种最小差异的翻译,方法是考虑源码句和翻译的情绪分数连续间隔,而不是使用例如二进制分类,允许更精细地选择翻译候选人。人类评价的结果显示,与我们基于情感的输油管线的版本的顶端的开放源MT基线模型相比,我们制作了更精确的翻译。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉
专知会员服务
9+阅读 · 2021年1月31日
专知会员服务
123+阅读 · 2020年9月8日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
已删除
将门创投
4+阅读 · 2018年6月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
基于LSTM-CNN组合模型的Twitter情感分析(附代码)
机器学习研究会
50+阅读 · 2018年2月21日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
已删除
将门创投
4+阅读 · 2018年6月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
基于LSTM-CNN组合模型的Twitter情感分析(附代码)
机器学习研究会
50+阅读 · 2018年2月21日
Top
微信扫码咨询专知VIP会员