There has recently been an explosion of work on spoken dialogue systems, along with an increased interest in open-domain systems that engage in casual conversations on popular topics such as movies, books and music. These systems aim to socially engage, entertain, and even empathize with their users. Since the achievement of such social goals is hard to measure, recent research has used dialogue length or human ratings as evaluation metrics, and developed methods for automatically calculating novel metrics, such as coherence, consistency, relevance and engagement. Here we develop a PARADISE model for predicting the performance of Athena, a dialogue system that has participated in thousands of conversations with real users, while competing as a finalist in the Alexa Prize. We use both user ratings and dialogue length as metrics for dialogue quality, and experiment with predicting these metrics using automatic features that are both system dependent and independent. Our goal is to learn a general objective function that can be used to optimize the dialogue choices of any Alexa Prize system in real time and evaluate its performance. Our best model for predicting user ratings gets an R$^2$ of .136 with a DistilBert model, and the best model for predicting length with system independent features gets an R$^2$ of .865, suggesting that conversation length may be a more reliable measure for automatic training of dialogue systems.


翻译:最近,关于口声对话系统的工作迅速展开,对开放域系统的兴趣也日益浓厚,这些系统涉及电影、书籍和音乐等流行主题的零星对话,这些系统的目的是让社会参与、娱乐甚至与用户交流。由于这些社会目标的实现很难衡量,最近的研究利用对话长度或人类评级作为评价指标,并开发了自动计算新指标的方法,如一致性、一致性、相关性和接触。我们在这里开发了一个预测雅典娜业绩的PARADISE模型,这个对话系统参与了与实际用户的数千次对话,同时作为亚历山大奖的决赛者进行竞争。我们使用用户评级和对话长度作为对话质量的衡量标准,并试验使用系统依赖和独立的自动特征来预测这些指标。我们的目标是学习一个通用目标功能,用来实时优化任何亚历克山大奖系统的对话选择,并评价其业绩。我们预测用户评级的最佳模型获得了136美元的R+2美元,同时作为DistiBert2号自动对话的决标度。我们可以用一个更独立的模型来预测一个可靠的对话系统。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
Incremental Reading for Question Answering
Arxiv
5+阅读 · 2019年1月15日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员