DeepMind：为什么GPT能为你写诗？

会员服务 ·

DeepMind：为什么GPT能为你写诗？

2022 年 6 月 3 日 新智元

新智元报道

编辑：袁榭

【新智元导读】最近，DeepMind的研究人员发表论文称，大型Transformer模型之所以处理自然语言的表现独佳，是由于人类语言的特殊统计学质性最适合。

众所周知，像GPT-3这种大模型，极为擅长写情诗、编故事，以及回答各种问题。

然而，同样的优异表现却很难在其他数据类型上重现。

为此，DeepMind在进行了一番研究之后发现：既有Transformer架构特征的贡献，自然语言本身特色的优势也不容忽视。

自然语言「非统一」性，暗合「小样本学习」

根据DeepMind的新研究论文「Transformer模型中数据分布属性驱动的小样本学习」，这可能是因为人类语言的特殊统计学质性，让神经网络模型可以容易地预测并处理自然语言数据中的意外变化。

论文地址：https://arxiv.org/abs/2205.05055

从统计学的角度来看，自然语言具有「非统一」的特质，比如有一词可以代表多种事物的「多义词」，和相同发音代表不同字眼的同音异义字现象。

例如前段时间将「淦」特意混同于「干」的网络中文语言现象，和「干」字本身的丰富意涵。

类似的语言性质在DeepMind新论文中有被关注到。

研究人员的思路是从探索类似GPT-3的大模型如何完成「小样本学习」开始，也就是厘清GPT们如何解决它们所面临的各种未被预训练过的任务。

例如，GPT-3可以回答有多个候选项的选择题，而不需要预先明确编程来回答这种形式的问题，只需由人类用户输入选择题和正确答案的配对例子来提示就行。

论文作者们称，这可以代表「基于Transformer的大型语言处理模型能够胜任小样本学习/上下文学习，而不需要被明确地为之预训练好。」

然后研究人员进一步诠释：「我们假设自然语言的特定分布属性，可能会是这种现象的诱因。」

适合「元学习」，就适合处理自然语言

研究人员推测，大型语言模型程序们的这种表现就像另一种机器学习模式，也就是元学习。

DeepMind近年来一直在探索的元学习程序，其功能是能够对跨越不同数据集的数据模式进行建模。这类程序经过训练，不是为单一的数据分布建模，而是为数据集的分布建模。

用白话说，元学习就是机器学会「学习」的基础。

这里的关键是「不同数据集」的概念。按研究人员的猜测，自然语言的所有「非统一」性，如多义词和使用频率相对极低的词，这些奇怪特征-中的每一个都类似于独立的数据集分布。

论文地址：https://arxiv.org/abs/1605.06065

事实上，研究人员认为，自然语言就像是介于有规律的受监督训练数据、和有大量不同性质数据的元学习之间的东西。

在监督训练中，词汇等训练项目确实会重复出现，而且项目与标签的映射—如自然语言中的词义—在某种程度上是固定的。

同时，长尾分布确定了自然语言中存在许多罕见的词汇，它们在不同的语境窗口中有规律重复出现的频率很低，但在语境窗口中可能是出现多次突发的。

所以可以把自然语言中罕见词、同音词、同形词、多义词，看作是完全不固定的数据分布中，项目-标签映射的弱化版本。这些映射在每一个训练回合中都会发生变化，在少数的元学习训练中使用。

为了测试这一假设，研究人员采取了一种有创意的方法：他们并不从AI模型的语言任务训练开始。相反，他们训练一个Transformer神经网络来解决一个视觉任务。

Omniglot是一个为1623个手写字符字形分配正确的分类标签的挑战程序，由纽约大学、卡内基梅隆大学和麻省理工学院的学者于2016年推出。

在此次DeepMind的研究中，首先需要将手写字符的分类标签随机打乱，把Omniglot挑战改变为one-shot学习任务，这样神经网络就能在各个「情节」中进行学习。

研究人员表示，与标签在所有序列中都是固定的训练类型不同的是，这两个图像类别的标签在每个序列中都是随机重新分配的。

由于标签在每个序列中都是随机重新分配的，所以模型必须使用当前序列中的上下文，以便对所查询图像进行标签预测（一个双向的分类问题）。

除非另有说明，小样本学习总是在训练中从未出现过的保留图像类别上进行评估。

以这种方式，研究人员将字符这一视觉数据改变得体现出自然语言的非统一性。

结论：图形数据越像自然语言，Transformer学习力就越好

在模型训练中，研究人员将Omniglot图像和标签置于各种被自然语言启发的分布质性的序列中。

例如，研究人员逐渐增加可以分配给一个特定字符的类型标签的数量，以此使字符接近多义词的质性。

在评估模型学习结果时，研究人员再评估这些特性是否会能提高模型的小样本学习性能。

研究人员发现，随着他们将某一字符的标签数量成倍增加，神经网络在进行小样本学习时表现更好。

「增加分配给每个词的标签数量，这个模拟多义词的因素的增长，也会增加小样本学习的成功几率。换言之，将有规律概况性难题的难度提高，反而让小样本学习的性能体现得更强大。」

同时，研究人员发现Transformer类神经网络AI的架构特点也有助于小样本学习。

作为对照组，研究人员测试了「一个原始无修饰的递归神经网络」，并发现这样的神经网络从来没有达到小样本学习的能力。

「与递归模型相比，Transformer类模型在小样本学习上体现出显著更高的优势」。

研究人员的结论是，数据的特性、诸如自然语言的长尾分布，和神经网络的性质、诸如Transformer类模型的架构特点，都在小样本学习中有重要作用。不只偏具一边，而是二者兼具。

作者列举了一些未来可以探索的途径。其中之一是与人类认知的联系，因为从婴儿期开始，人类就表现出小样本学习的能力。

例如，婴儿能迅速学习到自然语言的统计学分布特性。这些分布特征是可以帮助婴儿获得快速学习的能力，或者作为以后学习任务的预训练起作用？

而在其他如视觉等感官经验领域，类似的非统一性分布性质，是否也能在发育中发挥作用？

其实可以看出，此项研究并非一项只注重语言的研究。其实研究的目的是通过重现Omniglot图像视觉数据的非统一性，来模仿自然语言的应有统计特性。

研究人员没有解释从一种模态到另一种模态的转换，是否对此项研究的意义有任何影响。相反，研究人员称他们期望将研究工作扩展到自然语言的更多方面：

「如何与强化学习与监督学习损失互动？在复制语言建模和自然语言的其他方面的实验中，这些训练结果会有什么不同？」

需要注意的是，作者还在对论文进行修改和完善，刚才的这些应该只是一个初步的结论。

参考资料：

https://www.zdnet.com/article/deepmind-why-is-ai-so-good-at-language-its-something-in-language-itself/

https://arxiv.org/abs/2205.05055

登录查看更多

相关内容

小样本

关注 3

DeepMind | 通过去噪来进行分子性质预测的预训练

专知会员服务

13+阅读 · 2022年6月27日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

Hinton，Lecun和Bengio三巨头联手再发万字长文：深度学习的昨天、今天和明天

专知会员服务

64+阅读 · 2021年7月2日

训练深度学习模型，46页ppt

专知会员服务

54+阅读 · 2021年6月17日

如何做出牛的研究？GAT作者DeepMind研究科学家Petar谈论自己读博科研经验，为您指点一二

专知会员服务

34+阅读 · 2021年4月27日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【DeepMind】强化学习教程，83页ppt

专知会员服务

158+阅读 · 2020年8月7日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

通才智能体来了！DeepMind的Gato算世界第一个AGI吗？

新智元

2+阅读 · 2022年6月7日

可达鸭为什么这么火？

ZEALER订阅号

0+阅读 · 2022年5月23日

语言模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型

机器之心

0+阅读 · 2022年4月3日

OpenAI教GPT-3学会上网，「全知全能」的AI模型上线了

机器之心

1+阅读 · 2021年12月17日

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

新智元

0+阅读 · 2021年12月13日

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

机器之心

0+阅读 · 2021年12月9日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

AINLP

28+阅读 · 2018年11月11日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

一种新的平滑肌收缩机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚集诱导发光建筑块构筑的新型光功能材料的结构与性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

电子束产生开放空间等离子体物理过程研究

国家自然科学基金

0+阅读 · 2012年12月31日

社会认知中信念冲突的认知神经机制及其计算模型

国家自然科学基金

6+阅读 · 2012年12月31日

视像在二维平面和三维空间的深度信息的比较研究

国家自然科学基金

0+阅读 · 2012年12月31日

银河宇宙线随太阳活动周的调制研究

国家自然科学基金

0+阅读 · 2012年12月31日

高能太阳物理和天体物理中的粒子加速

国家自然科学基金

0+阅读 · 2011年12月31日

基于多源实测数据的火焰建模方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

联想词序列训练重塑失语症言语功能神经网络的机制

国家自然科学基金

0+阅读 · 2011年12月31日

Sockeye 3: Fast Neural Machine Translation with PyTorch

Arxiv

0+阅读 · 2022年7月25日

A Survey on Deep Reinforcement Learning for Data Processing and Analytics

Arxiv

24+阅读 · 2022年2月4日

Paradigm Shift in Natural Language Processing

Arxiv

28+阅读 · 2021年9月26日

Training Graph Neural Networks with 1000 Layers

Arxiv

13+阅读 · 2021年6月14日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

Dynamic Neural Networks: A Survey

Arxiv

37+阅读 · 2021年2月10日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

A Comprehensive Survey on Graph Neural Networks

Arxiv

21+阅读 · 2019年1月3日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

VIP会员