新智元报道
编辑:David
如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?
这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真正智能的讨论重新成为科学家们关注的热点。
许多科学家认为,深度学习模型只是大型统计机器,以复杂的方式将输入映射到输出。深度神经网络可能能够生成冗长的连贯文本,但并不能像人类那样理解抽象和具体的概念。
也有人不同意这种观点。
比如Google Research 的人工智能科学家 Blaise Aguera y Arcas 认为,大型语言模型可以教会我们很多东西,「比如自然语言、理解力、智力、社会性和人格。」
大型语言模型厉害在哪?
由于几个因素的共同影响,大型语言模型近年来越来越受欢迎:
1-海量数据:有大量的在线文本,例如维基百科、新闻网站和社交媒体,可用于训练语言任务的深度学习模型。
2-大量的算力资源:大型语言模型包含数千亿个参数,需要昂贵的计算资源进行训练。随着谷歌、微软和 Facebook 等公司已经在深度学习和大语言模型上投入数十亿美元,用于该领域的研发。
3-深度学习算法的进步:Transformer 是一种于 2017 年推出的深度学习架构,一直是推动自然语言处理和生成 (NLP/NLG)领域进步的核心动力。
Transformer 的一大优势是可以通过无监督学习对非常多的未标记文本语料库进行训练。
基本上,Transformer 所做的是,将一串字母(或其他类型的数据)作为输入,并预测数据序列中的下一个元素。
它可能在问题后接着给出答案、标题后接着给出文章,或者在用户聊天、对话中给出提示。
众所周知,循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 是 Transformer 的前身,但它们在保持长序列的连贯性方面的表现非常糟糕。
但是,基于 Transformer 的语言模型(例如 GPT-3)在长输出中表现出令人印象深刻的高性能,而且不太容易出现其他类型的深度学习架构所犯的逻辑错误。
Aguera y Arcas 通过与 LaMDA(一款谷歌 Meena 聊天机器人的改进版本)的对话探索了大型语言模型的潜力。
各种例子表明,LaMDA 似乎处理抽象主题,例如社会关系和需要直观了解世界如何运作的问题。
例如,如果你告诉它「我把保龄球掉在了一个瓶子上,它破了」,模型在随后的交流中会知道,这句话是说「保龄球打破了瓶子」。语言模型会将“it”与短语中的第二个名词相关联。
但随后 Aguera y Arcas 对句子进行了微妙的更改:「我把小提琴掉在保龄球上,它坏了」,这一次,LaMDA 模型则将“它”与小提琴联系在一起,和保龄球相比,小提琴更轻、更脆弱。
更多实例表明,深度学习模型可以参与涉及想象的对话,比如它「最喜欢的岛屿是什么」,即使它根本没有旅行过,没有上过任何岛屿。这就引出了下一个问题:
AI模型需要感官体验吗?
在发表在Medium上的这篇长文中,Aguera y Arcas还驳斥了一些反对在大型语言模型中理解的关键论点。
其中之一就是「模型需要具体化」。
如果一个AI系统没有实体存在,也不能像人类一样在多模态系统中感知世界,那么它对人类语言的理解是不完整的。
早在孩子学会说话之前,他们就已经掌握了复杂的感知技能。他们会检测人、脸、表情和物体。他们学习空间、时间和直觉物理学,学会触摸和感受物体、闻、听,并在不同的感官输入之间建立联系。
在学会说话之前,他们就可以思考另一个人或动物的经历。而语言正是建立在我们所有这些与生俱来的知识和丰富的感官体验之上。
但Aguera y Arcas 认为,「因为学习对于大脑的工作非常重要,所以我们可以在广泛的范围内学会使用我们需要的任何东西。我们的感官也是如此。」而在这个过程中,「真实感」并不是必须的要素。
他认为,虽然 LaMDA 既没有鼻子,也没有先验最喜欢的气味,但它确实有自己丰富的联想,就像盲人海伦·凯勒展现出的颜色感一样,这种感觉可以基于语言,根据他人的经验得到。
大型语言模型的关键:序列学习
在文中,Aguera y Arcas 认为序列学习是与大大脑动物(尤其是人类)相关的所有复杂能力的关键,包括推理、社会学习、心理理论和意识。
「复杂的序列学习可能是解开所有其他问题的关键。这可以我们在大型语言模型中看到的令人惊讶的能力——这些模型只不过是复杂的序列学习者。」
而注意力已被证明是在神经网络中实现复杂序列学习的关键机制——正如介绍 Transformer 模型的论文标题所暗示的那样,「Attention is all you need」
这是一个有趣的论点,因为序列学习实际上是具有高阶大脑的生物体的迷人能力之一。这一点在人类身上最为明显,我们可以学习可以产生长期回报的超长的动作序列。
他对大型语言模型中的序列学习的观点也是正确的。这些神经网络的核心是将一个序列映射到另一个序列,网络越大,可以读取和生成的序列越长。
Transformers 背后的关键创新是注意力机制,它帮助模型专注于其输入和输出序列中最重要的部分。这些注意力机制帮助 Transformer 处理非常大的序列,并且比它们的前辈需要更少的内存。
反方观点
不过,对于这个问题,也有人持不同的立场。
圣达菲研究所教授梅兰妮·米切尔 (Melanie Mitchell) 就在 Twitter 上发帖,对Aguera y Arcas 的观点进行了很有意思的反驳。
虽然 Mitchell 同意机器有朝一日可以理解语言,但目前的深度学习模型,如 LaMDA 和 GPT-3还远未达到这个水平。
最近,她在 QuantaMagazine 上写了一篇文章,探讨了衡量人工智能理解的挑战。
「在我看来,问题的关键在于理解语言。需要理解世界,而只接触语言的机器无法获得这样的理解。」米切尔写道。
米切尔认为,当人类处理语言时,会使用大量没有明确记录在文本中的知识。因此,如果不具备这种基础知识,AI就无法理解我们的语言,试图仅通过文本来理解语言是不可能真正成功的。
米切尔还认为,与 Aguera y Arcas 的论点相反,海伦·凯勒的例子恰恰证明,感官的实际体验对语言理解很重要。
「在我看来,海伦·凯勒的例子恰恰显示了她对颜色的理解是如何具体化的。她将颜色概念映射到了气味、触觉、温度等概念上。」米切尔写道。
至于注意力,米切尔表示,Aguera y Acras 的文章中提到的神经网络中的「注意力」与我们所了解的人类认知中的注意力有很大区别。
但 Mitchell 也表示, Aguera y Acras 的文章是「发人深省」的,尤其是现在,谷歌、微软这样的公司越来越多地将大型语言模型部署在我们的日常生活中,更显出这个问题的重要性。