在「无限猴子」定理中,「几乎必然」是一个有特定含义的数学术语,「猴子」也不是指一只真正意义上的猴子,而是被用来比喻成一台可以产生无限随机字母序列的抽象设备。一只黑猩猩随机打字,只要时间足够,几乎必然可以打出法国国家图书馆中的每本书 这个理论说明,把一个很大但有限的数看成无限的推论是错误的,即使可观测宇宙中充满了一直不停打字的猴子,它们能够打出一部《哈姆雷特》的概率仍然少于 1/10^183800。 而且,即使给无数只猴子无限的时间,它们也不会懂得如何欣赏吟游诗人诗意的措辞。「人工智能(AI)也是如此,」 牛津大学计算机科学教授 Michael Wooldridge 这样说道。Michael Wooldridge在 Wooldridge 看来,虽然 GPT-3 等 AI 模型借助数百亿或数千亿的参数展现出了令人惊讶的能力,但它们的问题不在于处理能力的大小,而在于缺乏来自现实世界的经验。例如,一个语言模型可能会很好地学习「雨是湿的」,当被问及雨是湿的还是干的时,它很可能会回答雨是湿的,但与人类不同的是,这个语言模型从未真正体验过「潮湿」这种感觉,对它们来说,「湿」只不过是一个符号,只是经常与「雨」等词结合使用。
然而,Wooldridge 也强调,缺乏现实物理世界知识并不能说明 AI 模型无用,也不会阻止某一 AI 模型成为某一领域的经验专家,但在诸如理解等问题上,如果认为 AI 模型具备与人类相同能力的可能性,确实令人怀疑。
相关研究论文以「What Is Missing from Contemporary AI? The World」为题,已发表在《智能计算》(Intelligent Computing)杂志上。
在当前的 AI 创新浪潮中,数据和算力已经成为 AI 系统成功的基础:AI 模型的能力直接与其规模、用于训练它们的资源以及训练数据的规模成正比。
对于这一现象,DeepMind 研究科学家 Richard S. Sutton 此前就曾表示,AI 的「惨痛教训」是,它的进步主要是使用越来越大的数据集和越来越多的计算资源。AI 生成作品 在谈及 AI 行业的整体发展时,Wooldridge 给出了肯定。「在过去 15 年里,AI 行业的发展速度,特别是机器学习(ML)领域的发展速度,一再让我感到意外:我们不得不不断调整我们的预期,以确定什么是可能的,以及什么时候可能实现。」但是,Wooldridge 却也指出了当前 AI 行业存在的问题,尽管他们的成就值得称赞,但我认为当前大多数大型 ML 模型受到一个关键因素的限制:AI 模型没有真正体验过现实世界。
在 Wooldridge 看来,大多数 ML 模型都是在电子游戏等虚拟世界中构建的,它们可以在海量数据集上进行训练,一旦涉及到物理世界的应用,它们就会丢失重要信息,它们只是脱离实体的 AI 系统。
「这些基础模型展示了自然语言生成方面前所未有的能力,可以生成比较自然的文本片段,似乎也获得了一些常识性推理能力,这是过去 60 年中 AI 研究的重大事件之一。」
这些 AI 模型需要海量参数的输入,并通过训练来理解它们。例如,GPT-3 使用互联网上千亿级的英语文本进行训练。大量的训练数据与强大的计算能力相结合,使得这些 AI 模型表现得类似于人类的大脑,可以越过狭窄的任务,开始识别模式,并建立起与主要任务似乎无关的联系。来源:OpenAI 但是,Wooldridge 却表示,基础模型是一个赌注,「基于海量数据的训练使得它们在一系列领域具备有用的能力,也进而可以专门用于特定的应用。」