「AI世界」还缺点啥?牛津大学教授:现实世界

2022 年 10 月 3 日 新智元



  新智元报道  

作者:学术头条
编辑:桃子
【新智元导读】无限猴子定理认为,让一只猴子在打字机上随机地按键,当按键时间达到无穷时,几乎必然能够打出任何给定的文字,比如莎士比亚的全套著作。

在「无限猴子」定理中,「几乎必然」是一个有特定含义的数学术语,「猴子」也不是指一只真正意义上的猴子,而是被用来比喻成一台可以产生无限随机字母序列的抽象设备。

一只黑猩猩随机打字,只要时间足够,几乎必然可以打出法国国家图书馆中的每本书
这个理论说明,把一个很大但有限的数看成无限的推论是错误的,即使可观测宇宙中充满了一直不停打字的猴子,它们能够打出一部《哈姆雷特》的概率仍然少于 1/10^183800。
而且,即使给无数只猴子无限的时间,它们也不会懂得如何欣赏吟游诗人诗意的措辞。
「人工智能(AI)也是如此,」 牛津大学计算机科学教授 Michael Wooldridge 这样说道。

Michael Wooldridge
在 Wooldridge 看来,虽然 GPT-3 等 AI 模型借助数百亿或数千亿的参数展现出了令人惊讶的能力,但它们的问题不在于处理能力的大小,而在于缺乏来自现实世界的经验。
例如,一个语言模型可能会很好地学习「雨是湿的」,当被问及雨是湿的还是干的时,它很可能会回答雨是湿的,但与人类不同的是,这个语言模型从未真正体验过「潮湿」这种感觉,对它们来说,「湿」只不过是一个符号,只是经常与「雨」等词结合使用。

然而,Wooldridge 也强调,缺乏现实物理世界知识并不能说明 AI 模型无用,也不会阻止某一 AI 模型成为某一领域的经验专家,但在诸如理解等问题上,如果认为 AI 模型具备与人类相同能力的可能性,确实令人怀疑。

相关研究论文以「What Is Missing from Contemporary AI? The World」为题,已发表在《智能计算》(Intelligent Computing)杂志上。

在当前的 AI 创新浪潮中,数据和算力已经成为 AI 系统成功的基础:AI 模型的能力直接与其规模、用于训练它们的资源以及训练数据的规模成正比。

对于这一现象,DeepMind 研究科学家 Richard S. Sutton 此前就曾表示,AI 的「惨痛教训」是,它的进步主要是使用越来越大的数据集和越来越多的计算资源。

AI 生成作品
在谈及 AI 行业的整体发展时,Wooldridge 给出了肯定。「在过去 15 年里,AI 行业的发展速度,特别是机器学习(ML)领域的发展速度,一再让我感到意外:我们不得不不断调整我们的预期,以确定什么是可能的,以及什么时候可能实现。」
但是,Wooldridge 却也指出了当前 AI 行业存在的问题,尽管他们的成就值得称赞,但我认为当前大多数大型 ML 模型受到一个关键因素的限制:AI 模型没有真正体验过现实世界。

在 Wooldridge 看来,大多数 ML 模型都是在电子游戏等虚拟世界中构建的,它们可以在海量数据集上进行训练,一旦涉及到物理世界的应用,它们就会丢失重要信息,它们只是脱离实体的 AI 系统。

以支持自动驾驶汽车的人工智能为例。让自动驾驶汽车在道路上自行学习是不太现实的,出于这个和其他原因,研究人员们往往选择在虚拟世界中构建他们的模型。

「但它们根本没有能力在所有最重要的环境(即我们的世界)中运行,」Wooldridge 说道。

来源:Wikimedia Commons
另一方面,语言 AI 模型也会受到同样的限制。可以说,它们已经从荒唐可怕的预测文本演变为谷歌的 LAMDA。今年早些时候,一个前谷歌工程师声称人工智能程序 LAMDA 是有知觉的,一度成为了头条新闻。
「无论这个工程师的结论的有效性如何,很明显 LAMDA 的对话能力给他留下了深刻的印象——这是有充分理由的,」 Wooldridge 说,但他并不认为 LAMDA 是有知觉的,AI 也没有接近这样的里程碑。

「这些基础模型展示了自然语言生成方面前所未有的能力,可以生成比较自然的文本片段,似乎也获得了一些常识性推理能力,这是过去 60 年中 AI 研究的重大事件之一。」

这些 AI 模型需要海量参数的输入,并通过训练来理解它们。例如,GPT-3 使用互联网上千亿级的英语文本进行训练。大量的训练数据与强大的计算能力相结合,使得这些 AI 模型表现得类似于人类的大脑,可以越过狭窄的任务,开始识别模式,并建立起与主要任务似乎无关的联系。
来源:OpenAI
但是,Wooldridge 却表示,基础模型是一个赌注,「基于海量数据的训练使得它们在一系列领域具备有用的能力,也进而可以专门用于特定的应用。」

「符号人工智能(symbolic AI)是基于‘智能主要是知识问题’的假设,而基础模型是基于‘智能主要是数据问题’的假设,在大模型中输入足够的训练数据,就被认为有希望提高模型的能力。」

Wooldridge 认为,为了产生更智能的 AI,这种「可能即正确」(might is right)的方法将 AI 模型的规模不断扩大,但忽略了真正推进 AI 所需的现实物理世界知识。

「公平地说,有一些迹象表明这种情况正在改变,」 Wooldridge说。今年 5 月,DeepMind 宣布了基于大型语言集和机器人数据的基础模型 Gato,该模型可以在简单的物理环境中运行。

「很高兴看到基础模型迈出了进入物理世界的第一步,但只是一小步:要让 AI 在我们的世界中工作,需要克服的挑战至少和让 AI 在模拟环境中工作所面临的挑战一样大,甚至可能更大。」

在论文的最后,Wooldridge 这样写道:「我们并不是在寻找 AI 道路的尽头,但我们可能已经走到了道路起点的尽头。」

对此,你怎么看?欢迎在评论区留言。
参考资料:
https://spj.sciencemag.org/journals/icomputing/2022/9847630/
https://www.eurekalert.org/news-releases/966063


登录查看更多
0

相关内容

自主机器智能!图灵奖得主Yann LeCun指明下一代AI方向
专知会员服务
53+阅读 · 2022年6月29日
【硬核书】终身机器学习,145页pdf
专知会员服务
83+阅读 · 2021年3月1日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
139+阅读 · 2020年7月27日
LeCun再炮轰Marcus: 他是心理学家,不是搞AI的
“AI 终有可能消灭人类!”
CSDN
0+阅读 · 2022年9月15日
问:在AI世界,推土机「生产」哪家强?
新智元
0+阅读 · 2022年7月8日
AI 真的能够理解人类语言吗?
CSDN
1+阅读 · 2021年12月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
5+阅读 · 2022年11月22日
Arxiv
13+阅读 · 2022年10月20日
Arxiv
19+阅读 · 2022年10月6日
Arxiv
13+阅读 · 2021年7月20日
Arxiv
15+阅读 · 2019年9月30日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Top
微信扫码咨询专知VIP会员