会员服务 ·

谷歌机器智能大牛：AI模型要真正理解人类语言，关键是「序列学习」

2021 年 12 月 26 日 新智元

新智元报道

编辑：David

【新智元导读】AI模型能够答对所有问题，是否意味着AI和你一样了解世界？随着AI语言模型的进步，关于理解、意识和真正智能的讨论重新成为科学家们关注的热点。

如果计算机给了你所有正确的答案，是否意味着它和你一样了解世界？

这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步，关于理解、意识和真正智能的讨论重新成为科学家们关注的热点。

许多科学家认为，深度学习模型只是大型统计机器，以复杂的方式将输入映射到输出。深度神经网络可能能够生成冗长的连贯文本，但并不能像人类那样理解抽象和具体的概念。

也有人不同意这种观点。

比如Google Research 的人工智能科学家 Blaise Aguera y Arcas 认为，大型语言模型可以教会我们很多东西，「比如自然语言、理解力、智力、社会性和人格。」

大型语言模型厉害在哪？

由于几个因素的共同影响，大型语言模型近年来越来越受欢迎：

1-海量数据：有大量的在线文本，例如维基百科、新闻网站和社交媒体，可用于训练语言任务的深度学习模型。

2-大量的算力资源：大型语言模型包含数千亿个参数，需要昂贵的计算资源进行训练。随着谷歌、微软和 Facebook 等公司已经在深度学习和大语言模型上投入数十亿美元，用于该领域的研发。

3-深度学习算法的进步：Transformer 是一种于 2017 年推出的深度学习架构，一直是推动自然语言处理和生成 (NLP/NLG)领域进步的核心动力。

Transformer 的一大优势是可以通过无监督学习对非常多的未标记文本语料库进行训练。

基本上，Transformer 所做的是，将一串字母（或其他类型的数据）作为输入，并预测数据序列中的下一个元素。

它可能在问题后接着给出答案、标题后接着给出文章，或者在用户聊天、对话中给出提示。

众所周知，循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 是 Transformer 的前身，但它们在保持长序列的连贯性方面的表现非常糟糕。

但是，基于 Transformer 的语言模型（例如 GPT-3）在长输出中表现出令人印象深刻的高性能，而且不太容易出现其他类型的深度学习架构所犯的逻辑错误。

Aguera y Arcas 通过与 LaMDA（一款谷歌 Meena 聊天机器人的改进版本）的对话探索了大型语言模型的潜力。

各种例子表明，LaMDA 似乎处理抽象主题，例如社会关系和需要直观了解世界如何运作的问题。

例如，如果你告诉它「我把保龄球掉在了一个瓶子上，它破了」，模型在随后的交流中会知道，这句话是说「保龄球打破了瓶子」。语言模型会将“it”与短语中的第二个名词相关联。

但随后 Aguera y Arcas 对句子进行了微妙的更改：「我把小提琴掉在保龄球上，它坏了」，这一次，LaMDA 模型则将“它”与小提琴联系在一起，和保龄球相比，小提琴更轻、更脆弱。

更多实例表明，深度学习模型可以参与涉及想象的对话，比如它「最喜欢的岛屿是什么」，即使它根本没有旅行过，没有上过任何岛屿。这就引出了下一个问题：

AI模型需要感官体验吗？

在发表在Medium上的这篇长文中，Aguera y Arcas还驳斥了一些反对在大型语言模型中理解的关键论点。

其中之一就是「模型需要具体化」。

如果一个AI系统没有实体存在，也不能像人类一样在多模态系统中感知世界，那么它对人类语言的理解是不完整的。

早在孩子学会说话之前，他们就已经掌握了复杂的感知技能。他们会检测人、脸、表情和物体。他们学习空间、时间和直觉物理学，学会触摸和感受物体、闻、听，并在不同的感官输入之间建立联系。

在学会说话之前，他们就可以思考另一个人或动物的经历。而语言正是建立在我们所有这些与生俱来的知识和丰富的感官体验之上。

但Aguera y Arcas 认为，「因为学习对于大脑的工作非常重要，所以我们可以在广泛的范围内学会使用我们需要的任何东西。我们的感官也是如此。」而在这个过程中，「真实感」并不是必须的要素。

他认为，虽然 LaMDA 既没有鼻子，也没有先验最喜欢的气味，但它确实有自己丰富的联想，就像盲人海伦·凯勒展现出的颜色感一样，这种感觉可以基于语言，根据他人的经验得到。

大型语言模型的关键：序列学习

在文中，Aguera y Arcas 认为序列学习是与大大脑动物（尤其是人类）相关的所有复杂能力的关键，包括推理、社会学习、心理理论和意识。

「复杂的序列学习可能是解开所有其他问题的关键。这可以我们在大型语言模型中看到的令人惊讶的能力——这些模型只不过是复杂的序列学习者。」

而注意力已被证明是在神经网络中实现复杂序列学习的关键机制——正如介绍 Transformer 模型的论文标题所暗示的那样，「Attention is all you need」

这是一个有趣的论点，因为序列学习实际上是具有高阶大脑的生物体的迷人能力之一。这一点在人类身上最为明显，我们可以学习可以产生长期回报的超长的动作序列。

他对大型语言模型中的序列学习的观点也是正确的。这些神经网络的核心是将一个序列映射到另一个序列，网络越大，可以读取和生成的序列越长。

Transformers 背后的关键创新是注意力机制，它帮助模型专注于其输入和输出序列中最重要的部分。这些注意力机制帮助 Transformer 处理非常大的序列，并且比它们的前辈需要更少的内存。

反方观点

不过，对于这个问题，也有人持不同的立场。

圣达菲研究所教授梅兰妮·米切尔 (Melanie Mitchell) 就在 Twitter 上发帖，对Aguera y Arcas 的观点进行了很有意思的反驳。

虽然 Mitchell 同意机器有朝一日可以理解语言，但目前的深度学习模型，如 LaMDA 和 GPT-3还远未达到这个水平。

最近，她在 QuantaMagazine 上写了一篇文章，探讨了衡量人工智能理解的挑战。

「在我看来，问题的关键在于理解语言。需要理解世界，而只接触语言的机器无法获得这样的理解。」米切尔写道。

米切尔认为，当人类处理语言时，会使用大量没有明确记录在文本中的知识。因此，如果不具备这种基础知识，AI就无法理解我们的语言，试图仅通过文本来理解语言是不可能真正成功的。

米切尔还认为，与 Aguera y Arcas 的论点相反，海伦·凯勒的例子恰恰证明，感官的实际体验对语言理解很重要。

「在我看来，海伦·凯勒的例子恰恰显示了她对颜色的理解是如何具体化的。她将颜色概念映射到了气味、触觉、温度等概念上。」米切尔写道。

至于注意力，米切尔表示，Aguera y Acras 的文章中提到的神经网络中的「注意力」与我们所了解的人类认知中的注意力有很大区别。

但 Mitchell 也表示， Aguera y Acras 的文章是「发人深省」的，尤其是现在，谷歌、微软这样的公司越来越多地将大型语言模型部署在我们的日常生活中，更显出这个问题的重要性。

参考资料：

https://thenextweb.com/news/ai-understand-what-we-are-saying-scientists-divided-syndication

https://bdtechtalks.com/2020/02/03/google-meena-chatbot-ai-language-model/

https://medium.com/@blaisea/do-large-language-models-understand-us-6f881d6d8e75

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

登录查看更多

相关内容

序列学习

关注 0

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

91+阅读 · 2021年6月18日

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

【实战电子书+代码】自然语言处理的实战，545页pdf，使用Python理解、分析和生成文本

专知会员服务

266+阅读 · 2019年12月28日

【LinkedIn报告】深度自然语言处理的搜索系统，211页pdf

专知会员服务

109+阅读 · 2019年6月21日

大型语言模型，真的能够理解人类吗？

CSDN

0+阅读 · 2022年1月24日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

考那么多试，拿那么高分，大模型们真的懂语言了吗？

机器之心

0+阅读 · 2021年12月22日

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

新智元

0+阅读 · 2021年12月13日

1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

PaperWeekly

0+阅读 · 2021年12月10日

10亿参数，10亿张图！Facebook新AI模型SEER实现自监督学习，LeCun大赞最有前途

新智元

0+阅读 · 2021年3月5日

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

深入理解LSTM网络

深度学习

17+阅读 · 2017年6月7日

脉冲神经网络敏感性及其应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

蒙医方剂数据挖掘关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于Wiki的垂直搜索语义技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于因果构造和推理的专家判断关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

格式塔规律的几何推理关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

进化大规模脉冲神经网络的关键技术研究

国家自然科学基金

3+阅读 · 2011年12月31日

维吾尔文WEB舆情挖掘的关键理论及技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

认知模型驱动的海量中医医案知识获取技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Arxiv

0+阅读 · 2022年4月19日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

A generative neural network model for random dot product graphs

Arxiv

0+阅读 · 2022年4月15日

Adjoined Networks: A Training Paradigm with Applications to Network Compression

Arxiv

0+阅读 · 2022年4月15日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

Paradigm Shift in Natural Language Processing

Arxiv

28+阅读 · 2021年9月26日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

谷歌机器智能大牛：AI模型要真正理解人类语言，关键是「序列学习」

新智元报道

【新智元导读】AI模型能够答对所有问题，是否意味着AI和你一样了解世界？随着AI语言模型的进步，关于理解、意识和真正智能的讨论重新成为科学家们关注的热点。

大型语言模型厉害在哪？

AI模型需要感官体验吗？

大型语言模型的关键：序列学习 在文中，Aguera y Arcas 认为序列学习是与大大脑动物（尤其是人类）相关的所有复杂能力的关键，包括推理、社会学习、心理理论和意识。

反方观点 不过，对于这个问题，也有人持不同的立场。

相关内容

大型语言模型的关键：序列学习

在文中，Aguera y Arcas 认为序列学习是与大大脑动物（尤其是人类）相关的所有复杂能力的关键，包括推理、社会学习、心理理论和意识。

反方观点

不过，对于这个问题，也有人持不同的立场。