人工智能(AI)在各个领域取得了显著进展,像ChatGPT这样的大型语言模型因其类人的文本生成能力而获得了极大的关注。尽管取得了这些成就,空间推理仍然是这些模型的一个重大挑战。例如StepGame这样的基准测试评估了AI的空间推理能力,而ChatGPT在此方面的表现并不令人满意。 然而,基准测试中模板错误的存在影响了评估结果。因此,如果解决了这些模板错误,ChatGPT的表现有可能会更好,从而导致对其空间推理能力的更准确评估。在本研究中,我们对StepGame基准进行了精炼,为模型评估提供了更准确的数据集。我们分析了GPT在修正后基准上的空间推理表现,发现它在将自然语言文本映射到空间关系方面表现出熟练度,但在多跳推理方面存在限制。我们通过结合模板到关系的映射和基于逻辑的推理,为基准提供了一个无瑕疵的解决方案。这种结合展示了在StepGame上进行定性推理的熟练度,且没有遇到任何错误。接着,我们解决了GPT模型在空间推理方面的限制。我们部署了连续思考和树状思考的提示策略,提供了对GPT“认知过程”的洞察,并实现了准确性的显著提升。我们的调查不仅揭示了模型的不足,还提出了增强功能,为具有更强大空间推理能力的AI的进步做出了贡献。

成为VIP会员查看完整内容
25

相关内容

【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
42+阅读 · 2023年9月20日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
专知会员服务
34+阅读 · 2020年11月29日
【NeurIPS 2020 - 斯坦福】知识图谱中多跳逻辑推理的Beta嵌入
专知会员服务
38+阅读 · 2020年10月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
349+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员