机翻可能存在误差，如有不准确的地方请您谅解。翻译后的标题：评估ChatGPT和GPT-4的逻辑推理能力 (Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4) - 专知论文

会员服务 ·

0

逻辑推理 · GPT-4 · ChatGPT · 数据集 · 基准 ·

2023 年 4 月 7 日

Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4

翻译：机翻可能存在误差，如有不准确的地方请您谅解。翻译后的标题：评估ChatGPT和GPT-4的逻辑推理能力

Hanmeng Liu,Ruoxi Ning,Zhiyang Teng,Jian Liu,Qiji Zhou,Yue Zhang

Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. GPT-4 shows even higher performance on our manual tests. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets.

翻译：翻译后的摘要：挖掘逻辑推理能力是一个包罗万象的自然语言理解的工作。随着"先进"于推理任务的自然语言生成模型——第四代预训练转换器（GPT-4）的发布，我们渴望了解GPT-4在各种逻辑推理任务中的表现。本文对多个逻辑推理数据集进行分析，包括LogiQA和ReClor这样的流行基准数据集，以及AR-LSAT这样的新数据集。我们将多项选择阅读理解和自然语言推理任务测试在需要逻辑推理的基准测试上。我们进一步构建了一个逻辑推理的越界数据集，以研究ChatGPT和GPT-4的鲁棒性。我们还进行了ChatGPT和GPT-4的性能比较。实验结果表明，在大多数逻辑推理基准测试上，ChatGPT的表现显著优于RoBERTa微调的方法。GPT-4在我们的手动测试中显示出了更高的性能。在基准数据集中，ChatGPT和GPT-4在LogiQA和ReClor这样的知名数据集上表现相对良好。然而，当处理新发布的和越界的数据集时，性能显著下降。逻辑推理对于ChatGPT和GPT-4仍然具有挑战性，特别是对于越界和自然语言推理数据集。

9

相关内容

逻辑推理

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

赛尔笔记 | 逻辑推理阅读理解任务及方法

赛尔笔记 | 逻辑推理阅读理解任务及方法

哈工大SCIR

1+阅读 · 2022年6月7日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

节律基因表达调控白蜡属种间杂种抗旱优势的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Bi2Te3合金基纳米复合体系中能量过滤效应及提升其热电性能途径的实验研究和探索

国家自然科学基金

1+阅读 · 2012年12月31日

新疆琥珀螺科（Succineidae)的系统分类学研究

国家自然科学基金

0+阅读 · 2012年12月31日

西南季风区2.8Ma以来高分辨率硅藻记录与古气候重建

国家自然科学基金

0+阅读 · 2009年12月31日

Zero-Shot Classification by Logical Reasoning on Natural Language Explanations

Arxiv

0+阅读 · 2023年5月25日

Complex Logical Reasoning over Knowledge Graphs using Large Language Models

Arxiv

0+阅读 · 2023年5月24日

GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking

Arxiv

1+阅读 · 2023年5月24日

Reasoning over Different Types of Knowledge Graphs: Static, Temporal and Multi-Modal

Arxiv

21+阅读 · 2022年12月12日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

VIP会员

文章信息

相关主题

相关VIP内容

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

赛尔笔记 | 逻辑推理阅读理解任务及方法

赛尔笔记 | 逻辑推理阅读理解任务及方法

哈工大SCIR

1+阅读 · 2022年6月7日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

Zero-Shot Classification by Logical Reasoning on Natural Language Explanations

Arxiv

0+阅读 · 2023年5月25日

Complex Logical Reasoning over Knowledge Graphs using Large Language Models

Arxiv

0+阅读 · 2023年5月24日

GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking

Arxiv

1+阅读 · 2023年5月24日

Reasoning over Different Types of Knowledge Graphs: Static, Temporal and Multi-Modal

Arxiv

21+阅读 · 2022年12月12日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

相关基金

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

节律基因表达调控白蜡属种间杂种抗旱优势的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Bi2Te3合金基纳米复合体系中能量过滤效应及提升其热电性能途径的实验研究和探索

国家自然科学基金

1+阅读 · 2012年12月31日

新疆琥珀螺科（Succineidae)的系统分类学研究

国家自然科学基金

0+阅读 · 2012年12月31日

西南季风区2.8Ma以来高分辨率硅藻记录与古气候重建

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员