Reliably counting and generating sequences of items remain a significant challenge for neural networks, including Large Language Models (LLMs). Indeed, although this capability is readily handled by rule-based symbolic systems based on serial computation, learning to systematically deploy counting procedures is difficult for neural models, which should acquire these skills through learning. Previous research has demonstrated that recurrent architectures can only approximately track and enumerate sequences of events, and it remains unclear whether modern deep learning systems, including LLMs, can deploy systematic counting procedures over sequences of discrete symbols. This paper aims to fill this gap by investigating the sequential enumeration abilities of five state-of-the-art LLMs, including proprietary, open-source, and reasoning models. We probe LLMs in sequential naming and production tasks involving lists of letters and words, adopting a variety of prompting instructions to explore the role of chain-of-thought in the spontaneous emerging of counting strategies. We also evaluate open-source models with the same architecture but increasing size to see whether the mastering of counting principles follows scaling laws, and we analyze the embedding dynamics during sequential enumeration to investigate the emergent encoding of numerosity. We find that some LLMs are indeed capable of deploying counting procedures when explicitly prompted to do so, but none of them spontaneously engage in counting when simply asked to enumerate the number of items in a sequence. Our results suggest that, despite their impressive emergent abilities, LLMs cannot yet robustly and systematically deploy counting procedures, highlighting a persistent gap between neural and symbolic approaches to compositional generalization.


翻译:可靠地计数和生成项目序列仍然是神经网络(包括大语言模型)面临的重要挑战。尽管基于串行计算的规则符号系统能轻松处理此能力,但神经网络模型需通过学习才能系统性地掌握计数程序。先前研究表明,循环架构仅能近似追踪和枚举事件序列,而现代深度学习系统(包括大语言模型)能否对离散符号序列实施系统性计数程序仍不明确。本文通过研究五种先进大语言模型(含专有、开源及推理模型)的序列枚举能力填补这一空白。我们在涉及字母与单词列表的序列命名与生成任务中测试模型,采用多种提示指令探究思维链在计数策略自发涌现中的作用。同时评估同架构不同规模的开源模型,以验证计数原理的掌握是否符合缩放定律,并通过分析序列枚举过程中的嵌入动态来研究数量表征的涌现编码。研究发现:部分大语言模型在明确提示下能执行计数程序,但无模型能在仅被要求枚举序列项目数量时自发进行计数。结果表明,尽管大语言模型具有令人瞩目的涌现能力,其仍无法稳健且系统地实施计数程序,这凸显了神经方法与符号方法在组合泛化方面存在的持续差距。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员