To what extent do language models (LMs) build "mental models" of a scene when answering situated questions (e.g., questions about a specific ethical dilemma)? While cognitive science has shown that mental models play a fundamental role in human problem-solving, it is unclear whether the high question-answering performance of existing LMs is backed by similar model building - and if not, whether that can explain their well-known catastrophic failures. We observed that Macaw, an existing T5-based LM, when probed provides somewhat useful but inadequate mental models for situational questions (estimated accuracy=43%, usefulness=21%, consistency=42%). We propose DREAM, a model that takes a situational question as input to produce a mental model elaborating the situation, without any additional task specific training data for mental models. It inherits its social commonsense through distant supervision from existing NLP resources. Our analysis shows that DREAM can produce significantly better mental models (estimated accuracy=67%, usefulness=37%, consistency=71%) compared to Macaw. Finally, mental models generated by DREAM can be used as additional context for situational QA tasks. This additional context improves the answer accuracy of a Macaw zero-shot model by between +1% and +4% (absolute) on three different datasets.


翻译:语言模型(LMS)在回答定位问题(例如关于特定道德困境的问题)时,在多大程度上能构建“心理模型”呢?认知科学已经表明,心理模型在解决人类问题方面起着根本作用。 虽然认知科学已经表明,心理模型在解决人类问题方面起着根本性的作用,但尚不清楚现有LM的高度问答性表现是否得到类似模型建设的支持,如果不是,这能否解释其众所周知的灾难性失败。我们发现,Macaw,一个以T5为基础的现有LM(当被调查时,它为形势问题(估计准确性=43%,有用性=21%,一致性=42%)提供了一些有用但不充分的心理模型。最后,我们建议DREAM所生成的心理模型可以作为提供描述情况的精神模型的投入,用以生成一种阐述情况的精神模型,而没有为心理模型提供任何额外的具体培训数据数据数据。它通过从现有的NLP资源进行远程监督而继承其社会常识。我们的分析表明,DREAM与Maaw相比,它能够产生显著更好的心理模型(估计准确性=67%,实用性=77%,一致性=71%)。最后,由DREAM生成的心理模型生成的心理模型可以用作额外的图像的另外的精确度1+零4A号的答案。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
Top
微信扫码咨询专知VIP会员