Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT's commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.


翻译:中文摘要: 像ChatGPT和GPT-4这样的大型语言模型在自然语言处理领域取得了重大进展。然而,其记忆、表征和利用常识知识的能力一直是LLM的痛点。以下问题仍不清楚:(1) GPT能否有效地回答常识性问题?(2) GPT是否具有常识?(3) GPT是否知道回答特定问题所需的常识知识?(4) GPT是否能够有效地利用常识来回答问题?为了评估上述常识问题,我们进行了一系列实验,以评估ChatGPT在常识能力方面的表现,实验结果显示:(1) GPT在常识任务的问答准确率方面表现良好,但仍然无法解决某些类型的知识。 (2) ChatGPT具有知识,并可以使用知识提示准确生成大多数常识性知识。(3)尽管具有知识,但ChatGPT是一个经验不足的常识问题解决器,无法精确地确定回答特定问题所需的常识知识,即ChatGPT不知道回答问题所需的常识知识。上述发现引发了在LLM中利用常识知识的更好机制的研究的需求,例如遵循指令、更好的常识指导等等。

58
下载
关闭预览

相关内容

「知识增强预训练语言模型」最新研究综述
专知会员服务
60+阅读 · 2022年11月18日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
EMNLP 2022 | 校准预训练模型中的事实知识
PaperWeekly
1+阅读 · 2022年11月22日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
Arxiv
158+阅读 · 2023年4月20日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员