A good open-domain chatbot should avoid presenting contradictory responses about facts or opinions in a conversational session, known as its consistency capacity. However, evaluating the consistency capacity of a chatbot is still challenging. Employing human judges to interact with chatbots on purpose to check their capacities is costly and low-efficient, and difficult to get rid of subjective bias. In this paper, we propose the Addressing Inquiries about History (AIH), an efficient and practical framework for the consistency evaluation. At the conversation stage, AIH attempts to address appropriate inquiries about the dialogue history to induce the chatbot to redeclare the historical facts or opinions. We carry out the conversation between chatbots, which is more efficient than the human-bot interaction and can also alleviate the subjective bias. In this way, we manage to rapidly obtain a dialog session that contains responses with high contradiction possibilities. At the contradiction recognition stage, we can either employ human judges or a natural language inference (NLI) model to recognize whether the answers to the inquiries are contradictory with history. Finally, we are able to rank chatbots according to the contradiction statistics. Experiments on open-domain chatbots show that our approach can efficiently and reliably assess the consistency capacity of chatbots and achieve a high ranking correlation with the human evaluation. We release the framework and hope to help improve the consistency capacity of chatbots. \footnote{\url{https://github.com/ictnlp/AIH}}


翻译:良好的开放式聊天室应当避免在对话会中就事实或观点提出相互矛盾的答复,称为一致性能力。然而,评估聊天室的一致性能力仍然具有挑战性。雇用人类法官特意与聊天室进行互动以检查其能力,成本高、效率低,而且难以消除主观偏见。在本文件中,我们建议对历史进行探讨,这是评价一致性的有效和实用框架。在对话阶段,AIH试图对对话史进行适当的调查,以诱使聊天室重述历史事实或观点。我们在聊天室之间开展对话,这比人与机器人的互动效率更高,也可以缓解主观偏见。这样,我们设法迅速获得一个包含高度矛盾反应的对话会。在承认阶段,我们可以雇用人类法官或自然语言推断模型,以确认对调查的答案是否与历史相矛盾。最后,我们能够根据相互矛盾的统计数据来排名聊天室/网络的级别,从而显示我们高水平的竞争力。在公开对话室中进行实验,我们能够以公开的级别/高水平来评估。

0
下载
关闭预览

相关内容

Chatbot,聊天机器人。 chatbot是场交互革命,也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件,简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
79+阅读 · 2021年7月3日
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
43+阅读 · 2021年1月23日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
6+阅读 · 2018年11月1日
VIP会员
相关VIP内容
专知会员服务
79+阅读 · 2021年7月3日
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
43+阅读 · 2021年1月23日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
相关资讯
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员