2022年预训练的下一步是什么？

会员服务 ·

2022年预训练的下一步是什么？

2022 年 1 月 9 日 PaperWeekly

©作者 | 李政

学校 | 华中科技大学

研究方向 | 自然语言处理

大规模预训练

预训练+微调的做法，在多个下游领域取得优异的表现。而在过去的一年里，预训练模型更是在往大而深的方向发展。

目前，国内已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。

但是模型在往大而深方向发展的同时，也存在如下亟待解决的问题：

如何解释预训练模型的理论基础（如大模型智能的参数规模极限存在吗）
如何将大模型高效、低成本的应用于实际系统
如何克服构建大模型的数据质量、训练效率、算力消耗、模型交付等诸多障碍
如何解决目前大部分大模型普遍缺乏认知能力的问题

对比学习

对比学习的出发点在于避免模型坍塌，理想的模型应该符合 alignment 和 uniformity，即语义相近的句子彼此聚集，语义无关的句子均匀分布。

如果仅仅通过数据增强构建正例，随机句子作为负例，并为其打上 0，1 标签，存在以下问题：

数据增强生成正例的变化有限
随机搭配成负例，含有除正例组合外其他组合全部为 0 的诱导
0，1 标签的赋予太过绝对，对相似性表述不够准确

因此对比学习的核心思想转变为：

   
   
     
    
    
      score(X,X^{'}) >> score(X,Y)

其中，X 代表原样本，代表数据增强的正样本，Y 代表随机选择的负样本。根据该思想，对比学习采用 InfoNCE 损失函数：

loss = -log \frac{exp(score(X,X^{'}))}{score(X,X^{'})+\sum_{i=1}^{N}score(X,Y_i)}

通过该损失函数实现正例拉近，负例推远的效果。

Prompt

prompt 被誉为 NLP 领域的新范式，与预训练+微调的范式相比，其过程分为："pre-train, prompt, and predict"。

prompt 的出发点在于以更轻量化的方式利用预训练模型，避免微调与预训练之间存在的差异。

prompt 通过构建模版的方式，将下游任务转为与预训练相似的 MLM 任务，以该方式充分发挥预训练模型的性能。

以文本情感分类任务中，"I love this movie."句子为例，prompt 按照以下方式进行处理：

3.1 生成prompt句子

该步骤完成输入句子到模型输入的映射：

   
   
     
    
    
      x^{'}=f_{prompt}(x)

其中，为生成的 prompt 句子，x 为输入句子，为 prompt 函数。

在本例中，使用的模版为：" [X] Overall, it was a [Z] movie."

因此，得到的，为"I love this movie. Overall it was a [Z] movie.

3.2 模型预测

该步骤将输入模型，模型完成模版空白位置的词语预测。

在本例中，模型可能预测为："excellent", "great", "wonderful" 等词语

3.3 结果映射

通常模型预测的词语与任务输出存在一定差距，因此我们需要完成词语到输出结果的映射。

   
   
     
    
    
      y = f(x^{'})

在本例中，"excellent", "great", "wonderful" 等词语映射为标签 "++"

展望未来

首先我认为当前基于数据驱动方法存在如下的问题：

1. 长尾效应：自然界中的数据分布就是长尾的，在学习的过程中，模型容易发生过拟合，泛化性较差。

2. 数据噪声：有标签的数据，在标注过程中就不可避免的存在噪声。尤其是多位人员一起标注时，不同标注人员根据自身的理解完成数据的标注，但不同的人自身理解存在偏差，因此标注结果极易存在误差。归根到底：标注的规范难以确定，无法统一大家的知识库。

当前我遇到的一些问题分享：模型仍无法很好地处理下述问题：

太阳有几只眼睛？
姚明与奥尼尔身高谁比较高？
猫咪可以吃生蛋黄吗？猫咪是可以吃蛋黄的。这里特定煮熟的白水蛋，猫咪不能吃生鸡蛋，因为生鸡蛋中有细菌。
物质都是由分子构成的吗？物质都是由分子构成的，分子又由原子构成-错的！因为有些物质是不含分子的。

这些问题，我总结为两方面的困难：

1. 缺乏知识，由于预训练与微调领域存在偏差，模型在下游任务中缺乏特定知识，同时模型在一些常识问题上表现较差。

2. 缺乏深度语义的理解，模型表现的更像通过字面匹配完成任务，推理的成分更弱。

当前研究热点仍然在于挖掘预训练模型的能力，但在基于常识性知识与逻辑推理的问题上，这种基于数据驱动的方式从底层就存在问题。引用一下大咖们对 2022 年的展望。

大模型一方面在不少问题上取得了以往难以预期的成功，另一方面其巨大的训练能耗和碳排放是不能忽视的问题。个人以为，大模型未来会在一些事关国计民生的重大任务上发挥作用，而在其他一些场景下或许会通过类似集成学习的手段来利用小模型，尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。

我们提出了一个叫做 “学件” 的思路，目前在做一些这方面的探索。大致思想是，假设很多人已经做了模型并且乐意放到某个市场去共享，市场通过建立规约来组织和管理学件，以后的人再做新应用时，就可以不用从头收集数据训练模型，可以先利用规约去市场里找找看是否有比较接近需求的模型，然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决，我们正在研究这个方向。

另一方面，有可能通过利用人类的常识和专业领域知识，使模型得以精简，这就要结合逻辑推理和机器学习。逻辑推理比较善于利用人类知识，机器学习比较善于利用数据事实，如何对两者进行有机结合一直是人工智能中的重大挑战问题。麻烦的是逻辑推理是严密的基于数理逻辑的 “从一般到特殊”的演绎过程，机器学习是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程，在方法论上就非常不一样。已经有的探索大体上是以其中某一方为倚重，引入另一方的某些成分，我们最近在探索双方相对均衡互促利用的方式。

谈谈自己的理解，预训练模型的方式归根到底仍然属于数据驱动的任务，其通过在大规模数据上学习，推断未知数据的概率。如果说数据中存在表述不准确、表述有歧义或者词汇本身就有多个含义的话，以概率的方式难以解决这些问题。

而人脑在未知问题上，推理成分居多，以一词多义为例，人类会考虑该词汇有几种用法，考虑在这种上下文语境下使用哪一种用法，所以是否可以建立一套类似于标准公理的语言规范，以该规范为基础，对未知句子进行拆解推理，理解句子的完整含义。通过了解模型的推理过程，模型的可解释性增强。当预测错误时，我们可以进行溯源分析，对模型依赖的知识进行调整，或者让模型学习的更充分。

接下来对自己 2022 年的期望：

1. 自身学习更多模型结构变化的同时，更多地理解业务的架构，明白模型在业务中起的作用。

2. 在算法研究上能够研究的更加深入，希望能够找到解决上述困难的方法

回顾自身算法经历

2021 年自身的算法经历主要分为：实习、算法比赛、项目、论文四部分。在这些经历里面主要接触分类、阅读理解、信息抽取三种任务，评估方式均采用精确率、召回率及 F1 值。下面将以这些经历为基础，介绍我处理这些任务的方式。

5.1 需求分析

开展算法工作之前，首先要搞清楚算法需要满足什么样的需求。包括：

业务属于什么样的任务
算法需要侧重的方向
训练数据及线上数据的情况
线上的指标
线下的评估方式
……

需求分析的目的在于了解业务的需求与算法在业务中起到的作用。

5.2 模型选型及设计

在明白需求之后，需要根据任务类型选择模型，并根据需求的不同，对模型结构进行调整。如阅读理解任务下：针对多答案、无答案的情况，我们需要调整模型的结构。

模型选型及设计的目的在于选择或设计能够很好地满足业务需求的模型。

5.3 数据分析

数据分析这一步是最重要的一步，当前模型主要还是以数据驱动，数据对模型的影响很大。

我主要从以下角度进行分析：

数据是否存在噪声：标点、大小写、特殊符号等
训练集测试集分布是否存在差异，测试集能否反映模型在具体业务下的表现
数据存在哪些特征，通过引入额外的特征，模型可以表现地更好
训练集分布：标签分布、长度分布等，是否会给模型带来类别不均衡、长文本等问题
数据量大小，数据量足够时可以继续预训练

数据分析的目的在于数据能否充分发挥模型性能，能否得到符合业务需求的模型

5.4 模型训练及优化

模型进行训练，开始炼丹【调参】。

设置合适的超参数【可以通过一些超参数搜索算法】
选择合适的优化器【adam/adamw/sgd】
学习率调整的策略

进阶版：

对抗训练
对比学习
UDA等数据增强方式
继续预训练
多任务学习
伪标签
SWA
……

5.5 分析负例

该过程同样重要，我们需要了解模型在测试数据上的表现情况，在什么数据表现较差，如何优化这些负例。

在优化过程中，建议记录每一次优化信息，分析模型的提升/降低是否符合自己预期，充分利用每一次实验

下面总结了我在优化过程常用的分析方式：

5.5.1 检查数据质量是否过差

这种情况通常表现为数据质量较差，模型在原始数据上表现不佳，精确率与召回率都很低。针对这种情况，需要对数据做必要的预处理，让模型能够更好地学习。

5.5.2 根据指标进行分析

recall低

‍‍‍‍‍‍‍

召回率表示召回的数量，测试集数据未召回较多，则从下列角度检查数据：

训练集测试集数据差异是否较大，即训练集中是否存在类似数据，若不存在则引入更多数据或者对该数据进行数据增强。这种情况，常见原因为数据分布不均衡-少数数据训练不充分；训练集、测试集分布差异较大导致。
训练集中存在类似数据，检查训练集中该种情况有无标注错误：漏标、错标。

precision低

精确率表示预测出的准确率，测试集数据分错的较多：

检查数据分布，是否数据分布不均衡。数据不均衡导致模型倾向于预测数量较多的数据，精确率下降。
标签定义是否准确，是否存在两类标签混淆的情况。这种情况，需要考虑对标签进行融合。

类别不均衡常用解决方式：

数据增强
resample
reweight
集成学习

数据错误常用解决方式：

交叉验证
置信学习
聚类分析

接下来的过程则是迭代分析，直到模型性能符合业务需求。

参考文献

[1] https://mp.weixin.qq.com/s/RqkQzeR5BOVpU7tj_zUgqQ

[2] https://www.zhihu.com/question/480187938/answer/2103245373

[3] https://zhuanlan.zhihu.com/p/399295895

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

Prompt

关注 10

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

【浙江大学ICLR2022】可微分提示—一种更加高效的预训练少样本微调方法

专知会员服务

32+阅读 · 2022年2月18日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【NeurIPS 2021】如何使用 Transformer 模型在图表示任务中胜过 GNN

专知会员服务

30+阅读 · 2021年11月21日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【2020 最新论文】对比学习中什么应该不是对比的？

专知会员服务

39+阅读 · 2020年8月16日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

prompt你到底行不行？

夕小瑶的卖萌屋

6+阅读 · 2022年4月8日

搭配对比学习，万能的 prompt 还能做可控文本生成

夕小瑶的卖萌屋

2+阅读 · 2022年3月17日

CV之后，纯MLP架构又来搞NLP了，性能媲美预训练大模型

机器之心

0+阅读 · 2022年2月14日

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

开放知识图谱

3+阅读 · 2022年2月2日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知

2+阅读 · 2022年1月26日

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

PaperWeekly

2+阅读 · 2021年10月24日

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

基于有限元模型及步态分析的足底筋膜受力机制研究及刚度可调节的足弓支撑研发

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

曲率，第二基本形式与几何算子的相似性的研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向协同的设计重用启发模型

国家自然科学基金

0+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

电磁加载对金属闭合裂纹超声非线性的调制机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图结构的迁移学习在文本倾向性分析中的应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

本体导向的大规模语义信息声明式抽取方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

科研团队动态演化规律研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于热力学原理的复杂体系工艺过程强化机理及流程优化研究

国家自然科学基金

0+阅读 · 2009年12月31日

ATP: AMRize Then Parse! Enhancing AMR Parsing with PseudoAMRs

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Machine learning method for light field refocusing

Arxiv

0+阅读 · 2022年4月18日

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

Arxiv

15+阅读 · 2021年5月19日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Reinforced Negative Sampling over Knowledge Graph for Recommendation

Arxiv

17+阅读 · 2020年3月12日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

VIP会员