One challenge with open-domain dialogue systems is the need to produce truthful, high-quality responses on any topic. We aim to improve the quality and coverage of Athena, an Alexa Prize dialogue system. We experiment with few-shot prompt-based learning, comparing GPT-Neo to Jurassic-1, for the movies, music, TV, sports, and video game domains, both within and cross-domain, with different prompt set sizes (2, 3, 10), formats, and meaning representations consisting of either sets of WikiData KG triples, or dialogue acts. Our evaluation uses BLEURT and human metrics, and shows that with 10-shot prompting, Athena-Jurassic's performance is significantly better for coherence and semantic accuracy. Experiments with 2-shot cross-domain prompts results in a huge performance drop for Athena-GPT-Neo, whose semantic accuracy falls to 0.41, and whose untrue hallucination rate increases to 12%. Experiments with dialogue acts for video games show that with 10-shot prompting, both models learn to control dialogue acts, but Athena-Jurassic has significantly higher coherence, and only 4% untrue hallucinations. Our results suggest that Athena-Jurassic produces high enough quality outputs to be useful in live systems with real users. To our knowledge, these are the first results demonstrating that few-shot semantic prompt-based learning can create NLGs that generalize to new domains, and produce high-quality, semantically-controlled, conversational responses directly from meaning representations.


翻译:开放式对话系统面临的一个挑战是,需要就任何议题提供真实、高质量的回应。 我们的目标是提高亚历克萨奖对话系统Athena的质量和覆盖面。 我们实验了几发快速学习,将GPT-Neo与Jurassic-1比较,在电影、音乐、电视、体育和视频游戏领域,无论是在电影、音乐、电视、体育和跨场域,其语义精确度为2、3、10、格式和含义都不同,由维基Data KG三重或对话动作构成。 我们的评价使用BLEURT和人文测量仪,并显示在10发高射时,Athena-Jurassic的表现对于一致性和语义准确性来说要好得多。 用2发跨场的跨场实验,其语义精确度精确度精确度下降到0.41,其不真实的错觉率率将首先上升至12%。 视频游戏的对话反应显示,用10发光,两种模型都学会控制现场对话动作,但Athena-Jurassic的性能产生足够的真实性结果。

0
下载
关闭预览

相关内容

【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
33+阅读 · 2021年11月30日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2022年1月13日
VIP会员
Top
微信扫码咨询专知VIP会员