大型语言模型(LLMs)在生成连贯文本方面展现了非凡的能力,然而,为什么它们能够如此工作的理论理解仍然难以捉摸。
理解语言生成的问题并不新鲜。几十年来,计算机科学家一直对人类和某些机器生成自然语言的能力着迷,这可以追溯到香农的早期工作。这里,有一项重要的工作由Gold(1967年)发起,他引入了语言识别的正式模型,并在学习理论(例如,Angluin(1980年))和语言学领域得到了广泛的研究。 本教程介绍了最近提出的语言生成的正式框架;这是对语言识别经典工作的现代解读。具体而言,我们探讨了Kleinberg和Mullainathan(2024年)最近提出的“极限语言生成”模型,该模型提供了一个令人惊讶的积极结果:即使在最小的要求下,经过有限样本的观察后,也能够生成连贯的语言——这一发现与Gold(1967年)和Angluin(1980年)在语言识别方面的负面发现形成鲜明对比。
我们的教程旨在向更广泛的计算学习理论社区介绍这一新兴的理论框架,激发新的研究,架起形式理论与实际语言模型之间的桥梁。无需具备语言生成模型的先验知识;具备基础数学素养即可理解。