清华大学刘知远组：基于Prompt Tuning对低维本征任务子空间进行探索

会员服务 ·

清华大学刘知远组：基于Prompt Tuning对低维本征任务子空间进行探索

2021 年 12 月 19 日 PaperWeekly

©作者 | 曾伟豪

学校 | 北京邮电大学

研究方向 | 对话摘要生成

论文标题：

Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning

论文链接：

https://arxiv.org/abs/2110.07867

作者提出了大家都非常关心的问题：预训练模型是如何通过任务无关的预训练目标（比如 BERT 的 MLM, NSP; PEGASUS 的 GSG）来学到知识，并且能使用少量的数据就能将预训练模型运用到下游差异巨大的任务中（fine-tuning; prompt-tuning）。

在论文中，作者提出了假设：将预训练模型迁移到各种下游任务的优化问题可以重参数化为在同一低维参数子空间中只优化少数几个自由参数的问题，作者称之为 intrinsic task subspace. （本征子空间）如下图所示：

注：Intrinsic dimension（ID）指的是用来表示数据或者近似函数所需要的最小的变量的数目。之前有工作直接将 PLM 的参数投影到线性子空间上，然后发现许多的 NLP 任务的 Intrinsic dimension 可以低于万维，这也启发了作者的工作）

如果上述假设成立，那么 task-specific optimization subspaces 的存在可以解释 PLMs 的通用性，同时本征子空间的低维度的特性可以解释 adaptations（fine-tuing; prompt-tuning）可以在相对小规模数据集上训练。从这个观点来看，PLMs 可以看成通用的 compressive frameworks，可以将不同任务的学习复杂度从高维降到低维。

为了证明上述假设，就需要找出 PLMs 的本征子空间（intrinsic task subspaces）。在论文中，作者通过 Prompt Tuning 来寻找公共 intrinsic subspace。因为直接让所有的 PLMs 的参数直接降维在计算上是困难的，并且 Prompt Tuning 在结构上不复杂，方便降维。

作者将论文中采用的方法称之为 intrinsic prompt tuning（IPT），IPT 主要包括两个阶段：multi-task subspace finding（MSF）和 intrinsic subspace tuning （IST）。在 MSF 的阶段，我们获得多任务下的经过优化的 soft prompts，然后训练一个自动编码器将这些 soft prompt 投影到低维的子空间上，最后将这些低维子空间上反向投影，重建成新的 prompt。这样经过优化的自动编码器就可以定义目标的本征子空间。在 IST 阶段，对于之前陌生的任务和数据，只需要调节在 MSF 阶段找到的低维子空间上的参数然后通过逆投影就可解决问题。

作者在实验上发现这个本征子空间不仅存在，而且维度非常低。在由 100 个随机任务上利用 MSF 得到的 5 维的本征子空间上，利用 IST 的方法可以对那些 100 个已经见过的任务（但是不同的数据）达到 prompt tuning 87% 的效果。对于 20 个没见过的任务，能达到 prompt tuning 65% 的效果。同时作者也表示通过 MSF 找到的本征子空间和 IPT 具有使用价值，比如可以用来分析 nlp 任务上的区别以及提升模型的稳定性。

Methodology

1.1 Preliminaries

对于给定的一系列 NLP 任务， , 其中既包括了 NLU 任务，又包括了 NLG 任务。但不失一般性，可以将任务定义为 , 其中，，目标就是习得映射函数：。

1.2 Intrinsic Prompt Tuning

1.2.1 Multi-task Subspace Finding

在 MSF 的阶段，对于每一个下游任务，都会得到得到一个训练好的 soft prompts 。会使用 auto-encoder 将投影到维上，再逆投影回原来的维度得到重建后的 prompt 。

其中，是用来投影到低维度的网络，是一层 FNN，则是两层的感知机用来做逆投影：

同时还引入重建的 Prompt 在对应任务上的损失。得到 MSF 阶段的训练目标：

其中是控制两种 loss 比率的超参，表示和的参数。

1.2.2 Intrinsic Subspace Tuning

在这个阶段，作者希望验证在 MSF 阶段找到的子空间的有效性。具体而言，保持在 MSF 阶段参数以及预训练模型参数固定，对每一个任务，仅仅是调节本征子空间上个自由参数，然后通过逆投影成 soft prompts，目标函数如下：

Experiment and Analysis

2.1 Experimental Settings

2.1.1 任务和数据集

从 Cross Fit Gym 随机抽取的 120 个 few-shot NLP 任务，既包含 NLU 又包括 NLG。每个任务可以表示为

。

2.1.2 Evaluation Metrics

定义了两个指标：

其中表示在任务上 IPT 的结果对应的测试分数。则表示在 prompt tuning（）的表现或者在 fine tuning 上的表现（）。

在论文中，作者使用作为主要评价指标，作为辅助评价指标。

3.1.3 任务设置

将 120 个 NLP 任务划分成训练任务集，测试任务集，满足。

在 MSF 的阶段，模型在上训练，然后在上测试和的结果。用来测试重建的 prompts 效果，这也为模型在 unseen data 和 tasks 上的表现提供一个经验性的上界。在上测试了 soft prompts 重建的结果，用来探究 auto-encoder 对于未见过的 prompts 的重建能力。

在 IST 阶段，在上使用 IST 来探究在子空间上的优化的表现。为了检验 IPT 的泛化能力，设计了两种任务：

1. unseen-data challenge. 在上使用重新采样的 K-shot 来进行 IST 的过程。

2. unseen-task challenge. 在上检验由 IPT 获得的 soft prompts 的效果。检验 IPT 在 unseen-task 上的效果，以此来证明不同 NLP 任务对应的子空间是不相互独立的。

2.2 Main Result

2.2.1 Q1 PLMs是否真的将few-shot设置下多样的NLP任务重参数化为低维子空间任务？

Figure 3（a）显示，在 unseen-data challenge 上，使用的 IST 能够恢复完整的 prompt tuning 的效果的 80%；在 unseen-task challenge 上，只需调节本征子空间上的 5-100个参数就可以达到 prompt tuning 的 60% 的效果。作者认为这为他们的猜想也就是 PLMs 将多样的 NLP 任务重参数化为低维子空间任务提供了证据。或者至少证明了这些任务被重参数化为低维子空间后存在交集，否则由得到的子空间几乎不可能对有效。

2.2.2 Q2 什么限制了IPT?

1. 在 MSF 阶段，重建 soft prompts 的效果甚至要优于原始的 prompt tunning。说明（1）MSF 可以通过促进在低维度上的多任务技能的分享来提升 prompt tuning 的表现。（2）在本征子空间上至少存在较优的解，能被 MSF 找到。但是即使是同样的训练数据 IST 也不能找到这些 good solutions, 因此与之间存在差距，说明采取的优化算法限制了 IST 的表现。

2. 与存在差距，说明直接在未知任务上进行 soft prompts 的重构表现不佳。说明 MSF 的重构能力限制了它的泛化性。

3. IPT相对 fine-tuning 的表现要逊于相对于在 prompt-tunning 下的表现。是因为 prompt-tuning 在 few-shot 场景下要比 fine-tuning 弱，启发设计更有效的 prompt-tuning 算法。

2.2.3 Q3 任务类型的影响

Figure3 (c)-(f)表示

1. 分类任务和非分类任务存在较大的差异。

2. 当提升时，non-cls 任务的表现会下降，cls 任务的表现会上升。这表明 non-cls 任务的本征子空间的维度可能远小于 cls 任务。

2.3 Analyses and Properties

2.3.1 Visualization of the Found Intrinsic Subspace

将本征子空间的向量利用 PCA 进行降维

1. 分类任务和非分类任务之间较大的差异，这也解释了之前的问题。

2. 和对应的向量在空间上是混合的，说明被找到的子空间对于未知的任务具有一定的泛化能力。

3. 从（C）和（D）中还可以观察到，属于同一类别的点表现为紧密的簇。说明学习到的 intrinsic 向量可以作为任务的低维表示，可以用来分析多种 NLP 任务之间的异同。

2.3.2 Impacts of the Number of Training Tasks

随着训练数据的增加，MSF 和 IST 的差距逐渐缩小，说明数据的增加能够有利于 IST 的优化。

2.3.3 Impacts of the Number of Shots

随着训练数据的增加，MSF 和 IST 的差距逐渐缩小，说明数据的增加能够有利于 IST 的优化。

2.3.4 Improving Prompt Tuning Stability

Prompt 是最不稳定的策略，会影响到 Prompt tuning 的使用，IPT 可以帮助 Prompt tuning 更稳定。可以用 IPT 的结果去初始化 Prompt Tuning。

Conclusion

作者并没有直接得出在 PLMs 上的不同 NLP 任务可以重参数化为在相同子空间上的优化。但找到了一个可信的结果：不同任务被重参数化在低维子空间上后存在交集，并且能被 MSF 找到。作者希望未来的工作能不能设计更好的框架去证明这个本征子空间的存在，使 IPT 具有更好的泛化性能。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

子空间

关注 1

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【浙江大学ICLR2022】可微分提示—一种更加高效的预训练少样本微调方法

专知会员服务

32+阅读 · 2022年2月18日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【ICCV2021】自监督蒸馏的长尾视觉识别

专知会员服务

24+阅读 · 2021年9月16日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

小米在预训练模型的探索与优化

专知会员服务

20+阅读 · 2020年12月31日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

prompt你到底行不行？

夕小瑶的卖萌屋

6+阅读 · 2022年4月8日

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

清华刘知远：大模型「十问」，寻找新范式下的研究方向

大数据文摘

1+阅读 · 2022年3月24日

Parameter-Efficient Fine-tuning 相关工作梳理

PaperWeekly

1+阅读 · 2022年3月19日

搭配对比学习，万能的 prompt 还能做可控文本生成

夕小瑶的卖萌屋

2+阅读 · 2022年3月17日

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

【浙江大学ICLR2022】可微分提示—一种更加高效的预训练少样本微调方法

专知

2+阅读 · 2022年2月18日

Prompt tuning新工作，五个参数解决下游任务 fine-tuning

夕小瑶的卖萌屋

2+阅读 · 2021年12月2日

别再Prompt了！谷歌提出tuning新方法，强力释放GPT-3潜力！

夕小瑶的卖萌屋

0+阅读 · 2021年9月7日

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据共性优化模型的高效算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于多核学习的高分辨率光学遥感图像固定结构人造目标检测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于压缩感知的稀疏水声阵列信号处理机理研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于最近正则子空间模型的高光谱遥感图像分类及异常检测研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于光谱压缩的线阵推帚式超光谱成像机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

随机扰动理论和随机算法在大规模矩阵计算中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

矩阵的结构主成份分析及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于多齿膦配体的配位超分子的设计、组装与性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

Generative Biomedical Entity Linking via Knowledge Base-Guided Pre-training and Synonyms-Aware Fine-tuning

Arxiv

0+阅读 · 2022年4月20日

A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems

Arxiv

0+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning

Arxiv

1+阅读 · 2022年4月15日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Embedding-based Retrieval in Facebook Search

Arxiv

12+阅读 · 2020年6月20日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

VIP会员