Existing work investigates the reasoning capabilities of large language models (LLMs) to uncover their limitations, human-like biases and underlying processes. Such studies include evaluations of base LLMs (pre-trained on unlabeled corpora only) for this purpose. Our position paper argues that evaluating base LLMs' reasoning capabilities raises inherent methodological concerns that are overlooked in such existing studies. We highlight the fundamental mismatch between base LLMs' pretraining objective and normative qualities, such as correctness, by which reasoning is assessed. In particular, we show how base LLMs generate logically valid or invalid conclusions as coincidental byproducts of conforming to purely linguistic patterns of statistical plausibility. This fundamental mismatch challenges the assumptions that (a) base LLMs' outputs can be assessed as their bona fide attempts at correct answers or conclusions; and (b) conclusions about base LLMs' reasoning can generalize to post-trained LLMs optimized for successful instruction-following. We call for a critical re-examination of existing work that relies implicitly on these assumptions, and for future work to account for these methodological pitfalls.


翻译:现有研究通过探究大语言模型(LLMs)的推理能力来揭示其局限性、类人偏见及内在机制。此类研究包括对基础LLMs(仅基于未标注语料库进行预训练)的评估。本立场论文认为,评估基础LLMs的推理能力存在固有的方法论问题,而现有研究忽视了这些问题。我们强调基础LLMs的预训练目标与评估推理所依据的规范性标准(如正确性)之间存在根本性错配。具体而言,我们展示了基础LLMs如何通过纯粹遵循语言统计概率模式,偶然性地生成逻辑有效或无效的结论。这种根本性错配挑战了以下假设:(a)基础LLMs的输出可被视为其获得正确答案或结论的真实尝试;(b)关于基础LLMs推理能力的结论可推广至经过后训练、以成功遵循指令为优化目标的LLMs。我们呼吁对隐含依赖这些假设的现有研究进行批判性重审,并建议未来工作应充分考虑这些方法论陷阱。

0
下载
关闭预览

相关内容

大语言模型中的隐式推理:综合综述
专知会员服务
29+阅读 · 9月4日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月17日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员