题目: MuTual: A Dataset for Multi-Turn Dialogue Reasoning
摘要: 近年来,非任务导向的对话系统取得了巨大的成功,这得益于大量可访问的对话数据和深度学习技术的发展。在给定的上下文中,当前的系统能够产生相关的、流畅的响应,但是由于推理能力较弱,有时会出现逻辑错误。为了便于会话推理的研究,我们引入了一个用于多回合对话推理的新数据集MuTual,包括8,860个基于中国学生英语听力考试的手动注释对话。与以前的非面向任务的对话系统的基准测试相比,MuTual测试更具挑战性,因为它需要一个能够处理各种推理问题的模型。实证结果表明,最先进的推理方法只能达到71%,远远落后于人类94%的表现,说明推理能力还有很大的提升空间。