Human ratings are one of the most prevalent methods to evaluate the performance of natural language processing algorithms. Similarly, it is common to measure the quality of sentences generated by a natural language generation model using human raters. In this paper, we argue for exploring the use of subjective evaluations within the process of training language generation models in a multi-task learning setting. As a case study, we use a crowd-authored dialogue corpus to fine-tune six different language generation models. Two of these models incorporate multi-task learning and use subjective ratings of lines as part of an explicit learning goal. A human evaluation of the generated dialogue lines reveals that utterances generated by the multi-tasking models were subjectively rated as the most typical, most moving the conversation forward, and least offensive. Based on these promising first results, we discuss future research directions for incorporating subjective human evaluations into language model training and to hence keep the human user in the loop during the development process.


翻译:人类评级是评价自然语言处理算法绩效的最常用方法之一。同样,衡量自然语言生成模型使用人类评级器生成的判决质量也是常见的。在本文中,我们主张在多任务学习环境中培训语言生成模型的过程中探索使用主观评价。作为案例研究,我们使用人群对话文集对六种不同语言生成模型进行微调。其中两种模型包含多任务学习,并将对行的主观评级作为明确学习目标的一部分。人对生成的对话行的评价显示,多任务模式生成的语句被主观评为最典型的、最能推动对话的、最不具有攻击性的。基于这些有希望的初步成果,我们讨论了将主观人类评价纳入语言模型培训的未来研究方向,从而让人类用户在开发过程中保持循环。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员