大型语言模型仍无法规划（针对大型语言模型的计划和变化推理基准） (Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning and Reasoning about Change)) - 专知论文

会员服务 ·

0

大型语言模型 · 语言模型 · 基准 · GPT-3 · GPT3 ·

2023 年 4 月 8 日

Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning and Reasoning about Change)

翻译：大型语言模型仍无法规划（针对大型语言模型的计划和变化推理基准）

Karthik Valmeekam,Alberto Olmo,Sarath Sreedharan,Subbarao Kambhampati

from arxiv, An updated version of this work is here: arXiv:2302.06706 Accepted at Foundation Models for Decision Making Workshop at Neural Information Processing Systems, 2022

Recent advances in large language models (LLMs) have transformed the field of natural language processing (NLP). From GPT-3 to PaLM, the state-of-the-art performance on natural language tasks is being pushed forward with every new large language model. Along with natural language abilities, there has been a significant interest in understanding whether such models exhibit reasoning capabilities with the use of reasoning benchmarks. However, even though results are seemingly positive, these benchmarks prove to be simplistic in nature and the performance of LLMs on these benchmarks cannot be used as evidence to support, many a times outlandish, claims being made about LLMs' reasoning capabilities. Further, these only represent a very limited set of simple reasoning tasks and we need to look at more sophisticated reasoning problems if we are to measure the true limits of such LLM-based systems. Motivated by this, we propose an extensible assessment framework to test the capabilities of LLMs on reasoning about actions and change, a central aspect of human intelligence. We provide multiple test cases that are more involved than any of the previously established benchmarks and each test case evaluates a different aspect of reasoning about actions and change. Results on GPT-3 (davinci), Instruct-GPT3 (text-davinci-002) and BLOOM (176B), showcase subpar performance on such reasoning tasks.

翻译：最近大型语言模型（LLMs）的进展已经改变了自然语言处理（NLP）领域。从GPT-3到PaLM，自然语言任务的最新性能正在不断提高。除了自然语言能力外，人们也对LLMs是否展现出具有推理能力的兴趣。然而，尽管结果似乎是积极的，但这些基准证明其具有简单化的性质，并且LLMs在这些基准上的表现不能用作支持LLMs推理能力的往往荒谬的声明的证据。此外，它们仅代表一组非常有限的简单推理任务，如果我们要衡量此类基于LLM的系统的真正限制，我们需要查看更复杂的推理问题。在此基础上，我们提出了一个可扩展的评估框架，用于测试LLMs对于操作和变化的推理能力，这是人类智能的一个核心方面。我们提供了多个更复杂的推理任务的测试案例，每个测试案例评估操作和变化推理的不同方面。在GPT-3（davinci）、Instruct-GPT3（text-davinci-002）和BLOOM（176B）上的结果显示，在此类推理任务上的表现不佳。

0

相关内容

大型语言模型

大型语言模型

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

专知会员服务

181+阅读 · 2023年3月24日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

91+阅读 · 2022年12月24日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【CIKM2020】神经逻辑推理，Neural Logic Reasoning

【CIKM2020】神经逻辑推理，Neural Logic Reasoning

专知会员服务

51+阅读 · 2020年8月25日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

37+阅读 · 2020年4月10日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

从此告别繁琐的模型微调，LLM-Adapters助力NLP任务快速高效微调！

从此告别繁琐的模型微调，LLM-Adapters助力NLP任务快速高效微调！

PaperWeekly

2+阅读 · 2023年4月6日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

顺手训了一个史上最大ViT？Google升级视觉语言模型PaLI：支持100+种语言

顺手训了一个史上最大ViT？Google升级视觉语言模型PaLI：支持100+种语言

新智元

1+阅读 · 2022年9月23日

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

11篇ICLR2020满分文章，来看看他们都在做什么？

11篇ICLR2020满分文章，来看看他们都在做什么？

专知

18+阅读 · 2019年11月7日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

语境、语用推理和交际变量影响会话含意理解的认知神经机制

国家自然科学基金

0+阅读 · 2014年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

参数复杂性、SAT求解器和树宽度

国家自然科学基金

0+阅读 · 2012年12月31日

大气化学氧化过程对中重度雾霾持续时间的影响

国家自然科学基金

0+阅读 · 2012年12月31日

αctinin 4介导NHERF1调节细胞微丝骨架及其对肿瘤细胞黏附与迁移的影响

国家自然科学基金

0+阅读 · 2011年12月31日

NIS安全风险评估中不确定性推理建模与风险传播问题研究

国家自然科学基金

1+阅读 · 2009年12月31日

二阶逻辑的表达能力与计算复杂性

国家自然科学基金

0+阅读 · 2009年12月31日

磁性源瞬变电磁法2.5维自适应有限元模拟与反演

国家自然科学基金

0+阅读 · 2009年12月31日

基于合成基准测试程序的多核处理器模拟技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Do Large Language Models Know What They Don't Know?

Arxiv

0+阅读 · 2023年5月29日

Towards Reasoning in Large Language Models: A Survey

Towards Reasoning in Large Language Models: A Survey

Arxiv

0+阅读 · 2023年5月26日

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Arxiv

0+阅读 · 2023年5月25日

A Survey on Asking Clarification Questions Datasets in Conversational Systems

Arxiv

0+阅读 · 2023年5月25日

ChatGPT for PLC/DCS Control Logic Generation

Arxiv

0+阅读 · 2023年5月25日

Complex Logical Reasoning over Knowledge Graphs using Large Language Models

Arxiv

0+阅读 · 2023年5月24日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

VIP会员

文章信息

相关主题

大型语言模型

相关VIP内容

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

专知会员服务

181+阅读 · 2023年3月24日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

91+阅读 · 2022年12月24日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【CIKM2020】神经逻辑推理，Neural Logic Reasoning

【CIKM2020】神经逻辑推理，Neural Logic Reasoning

专知会员服务

51+阅读 · 2020年8月25日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

37+阅读 · 2020年4月10日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机集群配置对模拟作战环境任务效能的影响研究》最新50页

《俄罗斯作战模式解析：对俄特别军事行动的观察报告》最新325页

军用无人机集群技术尚未成熟——但潜力可期

《无人机改变战争规则，但无法破解陆战固有挑战》最新报告

相关资讯

从此告别繁琐的模型微调，LLM-Adapters助力NLP任务快速高效微调！

从此告别繁琐的模型微调，LLM-Adapters助力NLP任务快速高效微调！

PaperWeekly

2+阅读 · 2023年4月6日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

顺手训了一个史上最大ViT？Google升级视觉语言模型PaLI：支持100+种语言

顺手训了一个史上最大ViT？Google升级视觉语言模型PaLI：支持100+种语言

新智元

1+阅读 · 2022年9月23日

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

11篇ICLR2020满分文章，来看看他们都在做什么？

11篇ICLR2020满分文章，来看看他们都在做什么？

专知

18+阅读 · 2019年11月7日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Do Large Language Models Know What They Don't Know?

Arxiv

0+阅读 · 2023年5月29日

Towards Reasoning in Large Language Models: A Survey

Towards Reasoning in Large Language Models: A Survey

Arxiv

0+阅读 · 2023年5月26日

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Arxiv

0+阅读 · 2023年5月25日

A Survey on Asking Clarification Questions Datasets in Conversational Systems

Arxiv

0+阅读 · 2023年5月25日

ChatGPT for PLC/DCS Control Logic Generation

Arxiv

0+阅读 · 2023年5月25日

Complex Logical Reasoning over Knowledge Graphs using Large Language Models

Arxiv

0+阅读 · 2023年5月24日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

相关基金

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

语境、语用推理和交际变量影响会话含意理解的认知神经机制

国家自然科学基金

0+阅读 · 2014年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

参数复杂性、SAT求解器和树宽度

国家自然科学基金

0+阅读 · 2012年12月31日

大气化学氧化过程对中重度雾霾持续时间的影响

国家自然科学基金

0+阅读 · 2012年12月31日

αctinin 4介导NHERF1调节细胞微丝骨架及其对肿瘤细胞黏附与迁移的影响

国家自然科学基金

0+阅读 · 2011年12月31日

NIS安全风险评估中不确定性推理建模与风险传播问题研究

国家自然科学基金

1+阅读 · 2009年12月31日

二阶逻辑的表达能力与计算复杂性

国家自然科学基金

0+阅读 · 2009年12月31日

磁性源瞬变电磁法2.5维自适应有限元模拟与反演

国家自然科学基金

0+阅读 · 2009年12月31日

基于合成基准测试程序的多核处理器模拟技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员