从计算理论看语言模型的scaling law和多模态模型的发展

引言《人工智能简史》的作者尼克老师最近写了两篇科普文章“所罗门诺夫：大语言模型的先知”[1]和“无心插柳：苏联数学家柯尔莫哥洛夫与神经网络的新生”[2]，让人们重新开始思考计算理论与大模型实践的关系。先结合OpenAI的两个报告来讨论： * 2023年2月OpenAI研究员 Jack Rae在斯坦福的报告“Compression For AGI”[3]

2023年8月Ilya在伯克利的报告”An observation on Generalization”[4] 报告的主要意思可以概括为“预测即压缩、压缩即泛化、泛化即智能”[5]。其中Jack Rae的报告表达了 “预测即压缩”，Ilya的报告则表达了 “压缩即泛化、泛化即智能”。 1. 预测即压缩先给结论：next-token prediction是压缩，预测越准、压缩率越高。

正确理解这个结论有两个关键：（1）模型是压缩器，不是压缩后的表示；（2）这里的压缩指的是上下文压缩，即基于上下文预测的next-token出现概率来减少编码代价，如果某token预测准确率为100%，则不需要任何编码。 Jack Rae设计了一个序列数据传输的场景：边传输、边训练。假设发送端有数据集D={X1,X2,…Xi…}和一个待训练的神经网络F，每次将一个Xi编码为Zi传送到接收端，并用相同的Xi来训练更新得到Fi；接收端具有训练F的相同代码和初始设置，可以用接收到的Zi解码获得Xi，同时也用Xi来训练更新得到Fi’。假设网络训练是稳定的，接收端就可以保持与发送端的神经网络预测概率一致：Pi=Pi’。在以上设置下，假设已经传了X1,…,X_{i-1}，现在要传Xi。在接收端有函数F_{i-1}’，可以根据P_{i-1}’(Xi|X1:X_{i-1})预测将要传输的数据。如果Pi-1(Xi|X1: X_{i-1})准确率=1，相当于根据已经传输的序列X1,…, X_{i-1}和函数P_{i-1}’可以完美的预测Xi，就不需要传输任何编码Zi了。即使Pi-1(Xi| X1:X_{i-1})准确率没有达到1，也可以结合关于Xi的预测来减少Zi的编码代价。这本质是基于概率分布的算术编码，具体推导可以参考月之暗面周昕宇的文章[6]。直接说结论，*传输数据Xi的编码代价|Zi|与预测准确率之间的关系是 |Zi|<-log P(Xi=Xi|X1:X_{i-1})+1 (公式a)。**这个式子是连接预测和压缩的核心: *next-token预测P(Xi=Xi|X1:X_{i-1})越准，需要的编码代价|Zi|越小。**除了传输每个数据的编码Z1,…Zi,…，还需要传输神经网络的训练代码和初始参数(称为模型的最小描述长度|F|)。最终，**传输整个数据集D需要的代价|D|=-log F(D)+|F|，即模型F在数据集D上的预测损失之和加上模型的最小描述长度。**注意模型的最小描述长度可理解为训练模型的代码量，与模型参数量无关，大致在1M左右，是固定代价，相比编码代价可忽略不计。上面这个式子表达的其实就是柯尔莫哥洛夫Kolmogorov复杂度。柯尔莫哥洛夫复杂度K()是指可以生成给定数据X的最短程序的长度。如果C是一个压缩器，满足：K(X)<|C(X)|+K(C)+O(1) (公式b)。其中右侧|C(X)|是压缩表示长度，即编码代价\Sum_|Zi|；K(C)是描述这个程序的长度，即|F|。柯尔莫哥洛夫复杂度给出了给定数据的理论压缩极限。进一步，可以计算出这种传输设置下压缩率与预测准确率之间的关系。假定数据集大小接近无限，且模型F训练收敛，**压缩率r=|C(X)|/|X|=1-log_{以m为底}2+log_{以m为底}P (公式c)。**m是token类别数，或者词表的大小。**模型预测越准、词表越大，压缩率越大，越逼近最优的柯尔莫哥洛夫压缩器。**总结一下：Jack Rae的报告将next-token预测和压缩定性联系起来(公式a)，并定量描述了压缩率和预测准确率之间的关系(公式c)。

2. 压缩即泛化，泛化即智能还是先给结论：**对一个数据集的最优压缩，是对数据集之外数据的最优泛化，随着数据和算力资源增加可以实现更强的智能。**沿着Ilya报告的逻辑来看怎么得到这个结论。 （1）分布匹配是一种有效的无监督学习目标

与监督学习相对完备的数学理论比起来，无监督学习由于只有x，没有明确的学习目标y，一直以来难以在理论上保证有效。比如在文本语料上做无监督的next-token prediction，为什么可以解决有监督的文档分类任务。 Ilya首先从分布匹配的角度定义了一种无监督学习的目标：假设有两个数据集X和Y(比如分别对应中文和英文)，没有样本级别的对应(即没有中英文配对的监督信息)，有效的无监督学习目标是找到函数F，使得F(X)的分布与Y的分布近似：distribution(F(X))~distribution(Y)。基于分布匹配的无监督学习和监督学习有两点区别：一是X,Y指的是数据集而不是样本，二是学习目标是数据集分布的近似而不是样本级别的映射。Ilya认为如果X和Y的维度足够高，分布匹配可以产生足够的约束来学习有效的F。 （2）好的压缩保证好的分布匹配

如何从数学上表示、以及如何实现好的分布匹配呢？Ilya从压缩的角度给出了答案。在公式b中我们已经用柯尔莫哥洛夫复杂度指出了压缩的极限。分布匹配考虑的情况其实是一种条件压缩：用从X中抽取的模式来协助压缩Y。公式b可以改写为：K(Y|X)<|C(Y|X)|+K(C)+O(1) (公式d)，给出了基于X来压缩Y的最优柯尔莫哥洛夫压缩器。由于柯尔莫哥洛夫压缩器不可计算，需要通过程序搜索来近似。将X视为无监督数据，Y视为监督任务的目标，公式d就描述了基于无监督学习解决监督任务的最优函数。在大模型背景下，神经网络是压缩器程序，SGD通过调整参数来搜索程序。进一步，Ilya认为K(Y|X) 在机器学习语境中不好理解，通过链式法则给出联合柯尔莫哥洛夫和条件柯尔莫哥洛夫的关系：K(X,Y)=K(X)+K(Y|X)+O(log(K(X,Y))) (公式e)，意思是如果想用X压缩Y，可以把X和Y连起来一起压缩，能获得的柯尔莫哥洛夫压缩器在条件压缩下也是最优的。

结合公式d和公式e，可以知道：只要把无监督数据X和监督任务目标Y放在一起预训练，就能隐式地找到X和Y的分布匹配。从贝叶斯的角度看，如果成功建模了联合概率P(X,Y)，可以自然解决理解任务P(Y|X)和生成任务P(X|Y)。以中英翻译任务为例，预训练语料中包含了未配对的中文和英文数据集，在推断时可以实现中英文互译。如尼克老师所说，监督学习可以看成无监督学习的特殊情况[1]。监督学习的任务可以表达为：给定训练集(x1,y1),…(x_n,y_n),基于拟合的函数f:x->y, 对样本x_{n+1}预测y_{n+1}。转化为无监督学习的形式：给定序列(x1,y1, …,x_n,y_n,x_{n+1})，基于学习的条件概率分布预测y_{n+1}。这就不难理解，在准备预训练数据集时，语言模型会包含不同NLP任务的监督数据集，视觉语言模型会将图文配对数据转化为图文交错的形式。在推断时，就可以解决这些NLP任务以及图文理解/生成任务。 （3）随着数据量增加，有效的无监督学习可以实现更好的泛化

结合Jack Rae的报告和上面的讨论，至此可以得出结论：**越准的next-token prediction -> 越高的压缩率 -> 越好的分布匹配 -> 越有效的无监督学习。*但和泛化的关系是什么？ IIya可能觉得这一点很自然，在报告中没有展开讲。说一下可能的两个解释。第一个解释要结合IIya报告开始对监督学习的介绍：因为设定了有效的目标，随着数据集规模增加，监督学习在测试数据上的性能就必定会越来越好。上面的讨论已经让我们知道无监督学习确实可以帮助解决监督任务。那么，IIya通过分布匹配为无监督学习也设定了有效的目标，有理由相信：随着预训练数据规模的增加，基于无监督学习的预测器在监督任务上的性能也会越来越好。第二个解释来自周昕宇的知乎文章[6]，要观察Jack Rae报告中对压缩场景的设置细节：数据是按序列传输的，待传输的下一个数据对于基于已传输数据训练的模型来说是没见过的。也就是说，决定压缩编码代价的-log P(Xi=Xi|X1:i-1)衡量的不是训练损失，而是验证/测试损失。这也符合现在大模型预训练一个epoch的设置。 （4）更强的智能

泛化和智能的关系看起来是直观的，可能没有必要专门论证。其实上述预测->压缩->分布映射->无监督->泛化的逻辑，是IIya在机器学习的背景下思考的。从计算理论的角度看，所罗门诺夫归纳似乎可以跳过分布匹配、无监督学习、甚至泛化，提供更加直接的逻辑。所罗门诺夫归纳的几个结论：（i）任何计算问题都可以转换为预测序列中下一个元素的问题；（ii）根据柯尔莫哥洛夫复杂度，最优预测是能生成观测数据的最短程序；（iii）在算力、数据和可搜索程序等资源无限的情况下，所罗门诺夫归纳能够逼近最优预测。

可以看到，所罗门诺夫归纳建立了最优预测、数据压缩与通用计算问题的联系，为基于序列预测实现智能提供了理论基础。IIya在2015独立想出了类似的逻辑。虽然在60年前人工智能先驱们已经提供了相关的理论支撑，但能在大模型的场景下联系和理解这些理论，仍然要佩服IIya的深刻认知。找到计算理论的支撑后，相信IIya更加坚定了next-token prediction的技术路线和scale up的信仰。当Transformer架构出现后，IIya认为这就是他所需要的工具，于是率先在OpenAI推动了算法工程化和工程算法化的范式变革，进而带来了今天GPT系列和大模型的成功。

3. 语言模型的Scaling Law

无论是Next-token prediction、扩散、掩码预测等无监督学习损失函数，还是神经网络、去噪自编码器等模型结构，早在几十年前就有了，但受限于模型和数据规模，并没有产生显著结果。今天，互联网海量数据、存储和计算硬件的进步使得模型和数据规模大幅提升，Transformer结构的并行计算能力使得从大规模数据中训练模型成为可能，现代大模型在各项任务上展现出远超传统机器学习的性能。 OpenAI在2020年首次在论文《Scaling Laws for Neural Language Models》中提出模拟大模型性能与模型规模、数据集大小和训练计算量之间的关系，DeepMind在2022年Chinchilla的研究中发现了几个因素之间类似的定性关系，但略微不同的定量关系。简单来说，Scaling Law规模效应揭示了模型性能与数据量、模型规模和算力之间的正比关系，具体的比例参数在不同设置下会有所不同。数据量和模型规模增加后，消耗的算力自然要增加。下面试着从计算理论的角度，先来理解Scaling Law中数据量和模型规模对性能的影响。 （1）数据量对性能的影响

数据量的影响相对容易理解。增加训练数据量，使模型能够学习到更通用的模式，从而在未见数据上表现得更好。这在前面从有效的无监督学习到更好的泛化的分析中已经讨论过。所罗门诺夫归纳中关于在无限资源下逼近最优预测的结论，可以提供进一步的理论支撑。但要注意的是，所罗门诺夫归纳中提到的无限资源中的数据量指的是“有效数据”。冗余数据对于发现内在数据模式和提升性能没有增益，而噪声数据不仅没有增益，还凭空增加了生成数据的柯尔莫哥洛夫复杂度，使训练变得更困难。这解释了为什么在事件中，训练数据量不断增加、模型规模减小的情况下能获得更好的模型性能。这在Llama系列上非常明显。一方面，通过更严格的数据清洗和预处理，保留下的主要是有效数据，柯尔莫哥洛夫复杂度可能还下降了。另一方面，原来的模型参数可能被浪费了，通过对模型结构和训练方法的优化，实现了更好的数据压缩，逼近了最优预测。

再从计算理论的角度讨论一下合成数据对模型性能的影响。一般认为，基于训练数据X1学习得到模型F，再从F中直接合成的数据X2是对X1的内插，即是对已有数据模式的组合，并没有引入新的模式。也就是说，柯尔莫哥洛夫复杂度没有增加，相当于压缩难度没有增加。但通过提高数据质量、优化数据分布、扩展数据多样性等方式，合成数据提升了有效数据量，有助于模型更好地学习数据中的模式，逼近最优压缩器。

但要继续提升模型的智能上限，需要引入具有更多复杂模式的新数据。一种新数据的来源是自然数据，比如物理世界的多模态传感数据、社会学和经济学等的复杂数据。[6]中提出了很有意思的设想：压缩物理数据和天文数据是否分别可以归纳出牛顿定律和开普勒定律？压缩强子对撞机的数据会归纳出什么？这也许正是AI for Science的机会。当然，前提是有足够的有效数据。另一种是合成的外推数据，需要结合强化学习平衡探索和利用，设计类似AlphaGo的selfplay自我对弈机制和AlphaZero中的从零开始策略。类似的想法在关于Q*的猜测[8]中被讨论，RL的探索有可能产生模仿学习无法获得的数据模式，这和后面要提到的后训练阶段Scaling Law的思路一致。预训练+强化学习会是现代机器学习的重要趋势[9]，希望很快有令人兴奋的工作出来。 （2）模型规模对性能的影响

首先，生成更复杂的数据、实现更高级的智能一定伴随着更高的柯尔莫哥洛夫复杂度。图灵曾估计，建立像人类一样交流的模型，至少需要数十亿字节，相当于口头语言的柯尔莫哥洛夫复杂度大约在十亿字节的数量级。而如果要生成物理世界、经济学和社会学中更复杂的数据，复杂度要远远超过这个数量[7]。但从公式b已经看到，模型规模并不直接和复杂度相关，那如何理解模型规模的影响？提供两个粗略的思考。对于更大规模的有效数据，容易理解寻找最优预测函数的难度增加了。简单看，更多的模型参数可以带来更大的模型假设空间，一方面包含最优预测函数的概率增加了，另一方面也符合所罗门诺夫归纳中对搜索无限计算程序的要求。另一个有些牵强的解释是回到公式b。由于右侧第二项K(C)对不同Transformer模型几乎不变，模型规模的影响主要体现在右侧第一项|C(X)|里。更大规模、更复杂的数据增加的是|C(X)|中不可压缩的部分和最优预测的复杂度K(X)。模型参数量的增加通常意味着更多的神经元和更复杂的网络结构，这能够处理更大的词表。由公式c我们知道，词表大小影响了压缩率。所以，模型规模通过处理更大词表的方式，增加了进一步提升压缩率的可能，从而更接近最优压缩器的效果。可以看到，相比数据规模，模型规模对模型性能的影响是间接的。除了一味增加模型参数量，可以考虑哪些模型结构设置和训练优化方法能更好地提高压缩率。此外，**虽然扩大模型规模确实有助于探索模型的智能上限，更为实用的选择是在构建尽可能大规模有效数据集的同时，挖掘小参数量模型的潜力。**大模型时代的算法研究需要在scaling law的框架下思考问题。首先是不断增加有效数据量、适当地增加模型规模、提供足够的算力、以及使用可以并行计算吃掉这些数据的架构，使scaling law能够发挥作用。进一步是通过优化数据分布、模型结构和训练方法，调整数据项和模型项的幂率参数来细化scaling law公式，获得更高效的规模效应。 （3）涌现能力

大模型的涌现能力是指：当模型参数量和数据规模达到一定程度后，模型会展现出一些在小规模下未曾见过的新能力，包括理解、推理、生成复杂语言和知识表达等。Scaling Law不仅体现在模型性能的提升，还包括这种新能力的涌现上。随着模型规模和数据量的增加，具有更强能力的模型能够捕捉到数据中更为复杂的模式和关系。一方面，这种模式是从小规模数据中难以发现的；另一方面，这些数据模式往往具有更高的柯尔莫哥洛夫复杂度。另一个解释角度是：根据分布匹配的设置，不同任务的数据集（如分类、QA、翻译、摘要、写作、推理等）分别以(Xi,Yi)的形式加入预训练集，在看过足够多的数据后，优秀的压缩器可能同时学到了X到不同任务监督目标Y的分布映射。这也说明了预训练数据多样性的重要。关于如何使用涌现出的能力，这需要在推断时选择对应的分布映射进行条件概率输出，一般需要给大模型输入合适的指令或提供少量样例进行few-shot learning。few-shot learning可以认为是通过样例(Xi,Yi)的序列激活当前任务的分布映射，而指令跟随的能力可能源于指令微调过程中学习到的特定指令与任务分布映射的关联。 （4）后训练的Scaling Law

基于柯尔莫哥洛夫复杂度和所罗门诺夫归纳，我们已经讨论了预训练阶段的Scaling Law：通过增加数据和模型规模，可以实现更好的压缩和性能提升。那么在预训练之外的后训练阶段，包括监督微调（SFT）和基于人类反馈的强化学习（RLHF），是否也存在类似的Scaling Law呢？首先是监督微调阶段，这里特指指令微调，一般通过少量、有针对性的高质量指令数据进行类似预训练的自回归学习。如前所述，指令微调的主要任务是帮助大模型进行分布迁移，从而在推断时能够理解用户指令，激活对应的任务分布。 后训练的Scaling Law可能主要发生在RLHF阶段。一方面，相比SFT标注数据的高成本，RL数据的标注代价较低，并且可以通过用户反馈的形式形成数据飞轮。另一方面，OpenAI一直都不推崇需要标注数据的监督学习，从一开始选择的就是强化学习和生成式无监督学习这两条技术路线，可能也是看到了RL的Scaling Law潜力。如果说预训练阶段的next-token prediction实现的是对序列数据的压缩，那么RLHF阶段的强化学习实现的则可能是对决策行为的压缩。柯尔莫哥洛夫复杂度适用于衡量任何数据集，自然也包括决策行为数据。IIya通过分布匹配和压缩已经将无监督学习和计算理论联系起来了。强化学习可以被认为是解决决策问题的计算任务，如何从计算理论的角度解释和指导强化学习，值得单独拿出来讨论。预训练的Scaling Law体现在随着数据和模型规模的提升，对最优预测的不断逼近，适用于语言生成、翻译、文本补全等容易转化为序列预测的任务。**RL的Scaling Law则体现在随着反馈数据的累积，对各种情境下最优策略的逼近，可以适用于需要复杂推理和决策的任务，**如游戏策略、动态规划、机器人控制等。因此，后训练的RL阶段除了实现对齐和安全，可能也是预训练之外继续提升大模型智能水平的有效方法。

（5）Next-token Prediction外的其他选择

Next-token Prediction是对所罗门诺夫归纳中序列预测目标的直接建模，因此GPT获得了目前最优的性能。与之相比，Bert采用了同时基于上下文的掩码预测作为损失函数，没有极致地挖掘数据中的模式来完成预测，获得的压缩率也是低于GPT的，因而泛化性能不好。但如果回到计算理论对数据压缩的设定，除了next-token prediction和掩码预测，其他的损失函数还有机会么？比如，Seq2Seq模型通过直接生成整个序列，找到序列映射的通用模式，实现对序列数据的压缩。对比损失将相似的输入映射到相似的输出，将不同的输入映射到不同的输出，优化表示空间，实现对数据的压缩。去噪自编码器通过将输入数据添加噪声，并训练模型去除噪声恢复原始数据，从而学习到数据的内在结构。扩散模型可以认为也属于这一类，通过逐步添加和去除噪声训练模型。此外，**结合前面对RL后训练中实现scaling law的思考，面向决策行为数据应该设计什么样的损失函数？**为了使Scaling Law持续发挥作用，新的损失函数需要能够最大程度地利用Transformer等架构，在大规模数据上尽可能降低损失实现高效压缩，从而进一步提升模型智能。 4. 多模态模型的发展

（1）多模态模型的得与失

2022年底ChatGPT发布后，多模态模型逐渐开始依赖语言模态上已经获取的能力。多模态大语言模型在已有的大语言模型基础上微调加入其他模态，取得了此前多模态联合预训练无法实现的能力。首先，为什么大语言模型的能力可以迁移到其他模态。DeepMind去年9月的文章发现：只在文本数据上训练的大语言模型，可以作为图像和音频数据的压缩器[10]。以图像为例，具体方法是：给定若干样例图像和待预测图像的前一段像素序列，大语言模型可以以较高准确率预测后续像素，从而降低编码的代价实现压缩。也就是说，从文本数据中学到的模式可以用来预测图像和音频。从IIya分布匹配的角度看，这建立了从文本数据集X分别到图像数据集Ya和音频数据集Yb的分布映射。但问题是，IIya的无监督学习需要对X,Y进行联合建模。而在DeepMind论文中，大模型预训练只用了文本数据，没有见过图像和音频数据。唯一的解释是：**由于语言模态的特殊性，从文本数据中学习到了一些与图像和音频共享的数据模式。**实施压缩时在prompt中提供的图像和音频样例，可以认为是在指导大语言模型如何应用这些共享模式。这为微调式的多模态大语言模型为什么有效提供了解释。多模态大语言模型的训练一般包括模态对齐和指令微调两步。**模态对齐是在调整distribution(Y)向distribution(X)迁移，而指令微调的作用与few-shot ICL类似，通过指令来提示大语言模型激活共享模式将distribution(X)向distribution(Y)迁移。**可见，大模型不仅能实现任务级别的分布迁移，还能在不同模态之间进行迁移。但对于多模态模型的期待不止于此。从人的经验看，协调多模态能力有助于智力发育，即我们希望多模态能够带来模型整体智能的提升。而目前的多模态大语言模型解决方案更像是一个没有视觉和听觉的人，只通过语言模态发育智力，后来恢复了视觉和听觉能力。可以想象，这种情况下其智力水平会基本维持在原有的水平。实验发现，多模态大语言模型的语言能力相比单模态大语言模型并没有提升，反而有一定程度的损失。视觉和语音模态在享受语言模态Scaling Law发展的红利的同时，语言模态好像并没有获得什么好处。从计算理论的角度，联合压缩多模态数据理应获得比单模态更好的理论最优压缩器。以视觉语言模态为例，X代表文本数据集，Y代表图像和视频数据集。一定有：K(X_{unseen}|X_{train},Y)<= K(X_{unseen}| X_{train}), K(Y_{unseen}|X,Y_{train})<= K(Y_{unseen}| Y_{train})，即多模态压缩器具有比各模态压缩器更低的柯尔莫哥洛夫复杂度。但实践似乎与理论不符。无论是多模态大语言模型之前的联合多模态预训练模型，还是最近回归多模态联合预训练的Gemini和GPT-4o，其在语言模态的能力相比大语言模型并没有明显提升。而在视觉模态，除去需要交互界面的多模态任务，这些模型在目标检测、超分辨率等纯视觉任务上的性能也不如专门的视觉模型。这其实并不矛盾，因为柯尔莫哥洛夫复杂度对应的是获得压缩极限的理论最优解。只能说，目前的联合预训练方案还远远没有实现对多模态数据的最优压缩。一个可能的原因是：语言模态太特殊了，不应该和其他模态直接混在一起。

（2）视觉自监督学习的机会和挑战

如果CLIP真的完美连接了视觉和语言，多模态大语言模型是多模态的最终解决方案，所以视觉就应该依附语言模态，那计算机视觉和多媒体的研究人员似乎没有什么可再研究的了。事实显然不是这样，视觉学习还没有实现自己的Scaling Law。Sora 团队负责人 Aditya Ramesh在智源大会上的报告[11]可以认为是Jack Rae和IIya的报告在视觉方向的延续。沿着Aditya给的下面这张图来看视觉学习的发展。修改自Aditya在智源大会上的报告[11]第一列的图示中，外面大圈代表视觉，里面小圈来表文本，白圈代表任务的输入，黑圈/灰圈代表任务的输出。先看上面三行对应的视觉理解任务，即输入视觉X，输出文本Y。趋势是从判别式训练任务到生成式训练任务，从标签粒度的语言监督到自然语言描述粒度的语言监督。可以清楚地看到，**在语言监督的情况下，学习到的只是视觉中可以用语言描述的一小部分信息。要学习无法用语言描述的视觉信息，需要逐步摆脱语言监督的限制。**图的下面两行对应了视觉生成任务。当可用的算力逐步提升，语言作为监督的作用下降。理想情况是最后一行：当完全不需要语言监督时，可以建模和生成所有视觉信息。Aditya将这一行的代表工作处留白，也许正是Sora-2在努力的目标。回想IIya报告[2]的最后以iGPT举例，是想告诉我们，相同的压缩和泛化想法也适用于视觉自监督学习。Aditya的系列工作正是沿着这一思路在持续探索。从这个意义上，**Sora-1大概处于图中倒数第二行和最后一行之间的位置。Sora-1仍然使用部分语言作为监督，但更像是为了完成冷启动的工作，获得一个初步的世界模拟器可以无限合成视觉信息，为Sora-2以及之后的版本实现完全视觉自监督学习做好准备。**有意思的是，Aditya这个报告的标题是：Language as the Scaffolding for Visual Intelligence。Scaffolding本义是脚手架，很多自媒体将其延伸翻译成了“必要框架”。“必要”没问题，在建筑初期的确起到了“支撑和引导”作用。但我猜Aditya更想表达的是 “辅助、临时”的作用：**语言监督只是临时的，随着数据、算力逐步提升，语言会像脚手架一样被用完即弃。**这个观点在报告后谢赛宁对他的提问中也一再被强调：”语言只是弥补当前视觉表示缺陷的一种先验，而视觉包含更广泛的信息”；”未来将语言纳入视觉，将构成一个更通用的界面”。语言因为它的易感知性和信息密度，的确非常特殊。连维特肯斯坦都认为：语言的边界就是认知的边界，似乎只有能表达的认知才是智能。但Nature最近的文章[12]从认知神经科学的角度找到证据：**语言只是提供了交互和沟通的方式，甚至不是思维所必需的，更不是智能的本质。**那么如何实现视觉自监督学习呢？只利用视觉信息很容易学到底层的特征表示。目前主要包括自回归和扩散两种视觉生成方式。两种方式的自监督任务都是预测缺失的信息，并将生成过程拆成多步：自回归每步预测一个token，扩散每步进行一次去噪预测去噪前的信息。**自回归适合序列、离散的数据，扩散适合高维、连续的数据。两种方式都可以使用Transformer，虽然具体斜率可能不同，但应该都能够实现规模效应。**LVM[13]将不同的视觉信息统一为离散的视觉句子表示，进行纯视觉的自回归序列建模，提供了一个非常有益的尝试。视觉句子的高层特征表示和多样化的预训练任务使得模型学习到了丰富的视觉模式。何凯明在MAE的工作后一直觉得视觉自监督学习方向还有很大发展空间。他加入MIT后的首个工作[14]就将扩散损失引入了自回归视觉生成，并提出了统一自回归和掩码预测的新框架。在Aditya报告的最后，Aditya提到“未来的工作将从固定数据集、优化目标函数和模型架构，转变到固定目标函数和模型架构、优化数据集”。我们据此猜测一下OpenAI可能的做法：**先通过语言监督辅助训练类似Sora-1的初级世界模拟器，然后让模型像Agent一样与世界模拟器交互。**Agent的每一次行动都会导致环境状态的变化。这种状态转移本身就是一种自监督信号，模型可以通过学习从当前状态预测未来状态，从而理解环境的动态变化进行视觉模式学习。这将再次发挥OpenAI在RL领域的优势。特斯拉的FSD 12实现了视觉能力的显著提升，据说也模拟合成了大量数据，不知道是否采取了相似的训练方式。FSD 12已经在自动驾驶领域初步实现了视觉的Scaling Law，我们期待Sora-X能够实现通用视觉领域的Scaling Law，会将视觉智能带到什么高度。最后，在视觉表示做好后，如何构建多模态模型？一种方案是寻找更好的架构和方法来联合学习，另一种方案是在视觉表示的基础上再加入其他模态。人类视觉系统的进化经历了几亿年的时间，而语言能力是在大概50万年才开始发展的。有研究发现，人的语言机制是伴随着文明进化和视觉机制逐渐对齐的。谢赛宁的'寒武纪'也许是正确尝试。这样看，Sora并不是因为没有采用自回归生成或成本问题而没有融入GPT-4o。OpenAI内部有多条技术线在探索AGI的实现方式，比如以GPT-1,2,3,4为代表的语言学习 (GPT-4V的多模态大语言模型路线也属于这种)，以GPT-4o为代表的多模态联合预训练学习，以及Sora代表的视觉学习。未来，Sora不仅不会并入GPT系列，相反，还可能将语言融入视觉模型。

具体哪种方案更可行还不清楚，但有两点可以确定：（1）不同模态应该对提升智能都有贡献；（2）不能过度依赖语言，视觉也许是更基础和更重要的。 结束语香农告诉我们：万物皆信息，图灵告诉我们：信息可计算。所以，万物皆可计算。语言由于数据采集相对容易、信息密度大，并且完美匹配next-token prediction的损失形式，成为了目前最容易获取的低垂果实。未来，随着数据类型和数据量继续增加，模型压缩效率不断提升，有计算理论做支撑的大模型的能力边界会在哪里？对于技术从业者，大概还有两点启示。第一，在实证经验之外，试着从计算理论的角度来思考问题。在处处讲scaling law和大模型原生的今天，2个时代、甚至3个时代前的AI研究人员已经被认为过时了。但如尼克老师所说“理论不是落后于实践，而是太超前了”。“酒还是陈的香”，也许是我们还不够老，应该寻找更老的经典理论来提供指导。万一，这就是大模型的第一性原理呢。第二，OpenAI的官方技术文档也许不再包含关键信息，但研究人员的报告中还是传递了不少重要的思考和认知。真正学者骨子里有着分享的使命感和幸福感，这是藏不住的。（感谢在本文形成过程中林致宇、汤铭和张宇翔三位同学的讨论）

参考文献

[1] 尼克：所罗门诺夫：大语言模型的先知, 2024.04.23.

[2] 尼克：无心插柳：苏联数学家柯尔莫哥洛夫与神经网络的新生，2024.05.10. [3] Jack Rae’s talk: Compression For AGI, 2023.02.28 [4] Ilya’s talk: An observation on Generalization, 2023.08.15 [5] Playing Games with Ais - The Limits of GPT-3 and Similar Large Language Models. [6] 周昕宇: 压缩下一个token，通向超过人类的智能。 [7] 黄黎原：《贝叶斯的博弈：数学、思维与人工智能》，2021。 [8]关于Q*(Q-star)的两个猜测，2023.12。 [9] 浅谈人工智能的趋势和展望，2024.05 [10] Google DeepMind: Language Modeling Is Compression. 2023.09. [11] Aditya Ramesh: Language as the Scaffolding for Visual Intelligence. 2024.06. [12] Language is primarily a tool for communication rather than thought. 2024.06. [13] Sequential Modeling Enables Scalable Learning for Large Vision Models. 2023.12. [14] Autoregressive Image Generation without Vector Quantization. 2024.06.

成为VIP会员查看完整内容

相关内容

计算理论

关注 0

计算理论( Theory of Computation )隶属于理论计算机科学( Theoretical Computer Science )和数学( Mathematics )。其中的理论是现代密码协议、计算机设计和许多应用领域的基础。该领域主要关心三个方面的问题：采用什么计算模型（即形式语言、自动机）解决哪些是能计算的、哪些是不能计算的（即可计算性理论）
要用多少时间、要用多少存储（即计算复杂性理论）

从数据中心视角看多模态大型语言模型的综述

专知会员服务

45+阅读 · 5月28日

大型语言模型遇上自然语言处理：综述

专知会员服务

31+阅读 · 5月23日

超越思维链：大型语言模型的X链范式综述

专知会员服务

37+阅读 · 4月28日

大型语言模型：原理、实现与发展

专知会员服务

97+阅读 · 2023年11月28日