清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索

2021 年 12 月 19 日 PaperWeekly


©作者 | 曾伟豪
学校 | 北京邮电大学
研究方向 | 对话摘要生成

论文标题:

Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning

论文链接:

https://arxiv.org/abs/2110.07867


作者提出了大家都非常关心的问题:预训练模型是如何通过任务无关的预训练目标(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)来学到知识,并且能使用少量的数据就能将预训练模型运用到下游差异巨大的任务中(fine-tuning; prompt-tuning)。

在论文中,作者提出了假设:将预训练模型迁移到各种下游任务的优化问题可以重参数化为在同一低维参数子空间中只优化少数几个自由参数的问题,作者称之为 intrinsic task subspace. (本征子空间)如下图所示:


注:Intrinsic dimension(ID)指的是用来表示数据或者近似函数所需要的最小的变量的数目。之前有工作直接将 PLM 的参数投影到线性子空间上,然后发现许多的 NLP 任务的 Intrinsic dimension 可以低于万维,这也启发了作者的工作)


如果上述假设成立,那么 task-specific optimization subspaces 的存在可以解释 PLMs 的通用性,同时本征子空间的低维度的特性可以解释 adaptations(fine-tuing; prompt-tuning)可以在相对小规模数据集上训练。从这个观点来看,PLMs 可以看成通用的 compressive frameworks,可以将不同任务的学习复杂度从高维降到低维。

为了证明上述假设,就需要找出 PLMs 的本征子空间(intrinsic task subspaces)。在论文中,作者通过 Prompt Tuning 来寻找公共 intrinsic subspace。因为直接让所有的 PLMs 的参数直接降维在计算上是困难的,并且 Prompt Tuning 在结构上不复杂,方便降维。

作者将论文中采用的方法称之为 intrinsic prompt tuning(IPT),IPT 主要包括两个阶段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的阶段,我们获得多任务下的经过优化的 soft prompts,然后训练一个自动编码器将这些 soft prompt 投影到低维的子空间上,最后将这些低维子空间上反向投影,重建成新的 prompt。这样经过优化的自动编码器就可以定义目标的本征子空间。在 IST 阶段,对于之前陌生的任务和数据,只需要调节在 MSF 阶段找到的低维子空间上的参数然后通过逆投影就可解决问题。


作者在实验上发现这个本征子空间不仅存在,而且维度非常低。在由 100 个随机任务上利用 MSF 得到的 5 维的本征子空间上,利用 IST 的方法可以对那些 100 个已经见过的任务(但是不同的数据)达到 prompt tuning 87% 的效果。对于 20 个没见过的任务,能达到 prompt tuning 65% 的效果。同时作者也表示通过  MSF 找到的本征子空间和 IPT 具有使用价值,比如可以用来分析 nlp 任务上的区别以及提升模型的稳定性。



Methodology


1.1 Preliminaries


对于给定的一系列 NLP 任务, , 其中既包括了 NLU 任务,又包括了 NLG 任务。但不失一般性,可以将任务定义为 , 其中 ,目标就是习得映射函数:

1.2 Intrinsic Prompt Tuning


1.2.1 Multi-task Subspace Finding

在 MSF 的阶段,对于每一个下游任务 ,都会得到得到一个训练好的 soft prompts   。会使用 auto-encoder 将 投影到 维上,再逆投影回原来的维度得到重建后的 prompt


其中 ,是用来投影到低维度的网络,是一层 FNN, 则是两层的感知机用来做逆投影:


同时还引入重建的 Prompt 在对应任务上的损失 。得到 MSF 阶段的训练目标:


其中 是控制两种 loss 比率的超参, 表示 的参数。

1.2.2 Intrinsic Subspace Tuning

在这个阶段,作者希望验证在 MSF 阶段找到的子空间的有效性。具体而言,保持在 MSF 阶段参数 以及预训练模型参数固定,对每一个任务,仅仅是调节本征子空间上 个自由参数,然后通过 逆投影成 soft prompts,目标函数如下:



Experiment and Analysis


2.1 Experimental Settings


2.1.1 任务和数据集


从 Cross Fit Gym 随机抽取的 120 个 few-shot NLP 任务,既包含 NLU 又包括 NLG。每个任务 可以表示为
2.1.2 Evaluation Metrics

定义了两个指标


其中 表示在任务 上 IPT 的结果对应的测试分数。 则表示在 prompt tuning( )的表现或者在 fine tuning 上的表现( )。

在论文中,作者使用 作为主要评价指标, 作为辅助评价指标。

3.1.3 任务设置

将 120 个 NLP 任务划分成训练任务集 ,测试任务集 ,满足

在 MSF 的阶段,模型在 上训练,然后在 上测试 的结果。用来测试重建的 prompts 效果,这也为模型在 unseen data 和 tasks 上的表现提供一个经验性的上界。在 上测试了 soft prompts 重建的结果,用来探究 auto-encoder 对于未见过的 prompts 的重建能力。

在 IST 阶段,在 上使用 IST 来探究在子空间上的优化的表现。为了检验 IPT 的泛化能力,设计了两种任务:

1. unseen-data challenge. 在 上使用重新采样的 K-shot 来进行 IST 的过程。

2. unseen-task challenge. 在 上检验由 IPT 获得的 soft prompts 的效果。检验 IPT 在 unseen-task 上的效果,以此来证明不同 NLP 任务对应的子空间是不相互独立的。

2.2 Main Result




2.2.1 Q1 PLMs是否真的将few-shot设置下多样的NLP任务重参数化为低维子空间任务?

Figure 3(a)显示,在 unseen-data challenge 上,使用 的 IST 能够恢复完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需调节本征子空间上的 5-100个 参数就可以达到 prompt tuning 的 60% 的效果。作者认为这为他们的猜想也就是 PLMs 将多样的 NLP 任务重参数化为低维子空间任务提供了证据。或者至少证明了这些任务被重参数化为低维子空间后存在交集,否则由 得到的子空间几乎不可能对 有效。

2.2.2 Q2 什么限制了IPT?

1. 在 MSF 阶段,重建 soft prompts 的效果甚至要优于原始的 prompt tunning。说明(1)MSF 可以通过促进在低维度上的多任务技能的分享来提升  prompt tuning 的表现。(2)在本征子空间上至少存在较优的解,能被 MSF 找到。但是即使是同样的训练数据 IST 也不能找到这些 good solutions, 因此 之间存在差距,说明采取的优化算法限制了 IST 的表现。

2.  存在差距,说明直接在未知任务上进行 soft prompts 的重构表现不佳。说明 MSF 的重构能力限制了它的泛化性。

3. IPT相对 fine-tuning 的表现要逊于相对于在 prompt-tunning 下的表现。是因为 prompt-tuning 在 few-shot 场景下要比 fine-tuning 弱,启发设计更有效的 prompt-tuning 算法。

2.2.3 Q3 任务类型的影响

Figure3 (c)-(f)表示

1. 分类任务和非分类任务存在较大的差异。


2. 当提升 时,non-cls 任务的表现会下降,cls 任务的表现会上升。这表明 non-cls 任务的本征子空间的维度可能远小于 cls 任务。


2.3 Analyses and Properties


2.3.1 Visualization of the Found Intrinsic Subspace


将本征子空间的向量利用 PCA 进行降维

1. 分类任务和非分类任务之间较大的差异,这也解释了之前的问题。

2.  对应的向量在空间上是混合的,说明被找到的子空间对于未知的任务具有一定的泛化能力。

3. 从(C)和(D)中还可以观察到,属于同一类别的点表现为紧密的簇。说明学习到的 intrinsic 向量可以作为任务的低维表示,可以用来分析多种 NLP 任务之间的异同。

2.3.2 Impacts of the Number of Training Tasks


随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。

2.3.3 Impacts of the Number of Shots


随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。

2.3.4 Improving Prompt Tuning Stability


Prompt 是最不稳定的策略,会影响到 Prompt tuning 的使用,IPT 可以帮助 Prompt tuning 更稳定。可以用 IPT 的结果去初始化 Prompt Tuning。



Conclusion

作者并没有直接得出在 PLMs 上的不同 NLP 任务可以重参数化为在相同子空间上的优化。但找到了一个可信的结果:不同任务被重参数化在低维子空间上后存在交集,并且能被 MSF 找到。作者希望未来的工作能不能设计更好的框架去证明这个本征子空间的存在,使 IPT 具有更好的泛化性能。

更多阅读





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
23+阅读 · 2021年9月16日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
小米在预训练模型的探索与优化
专知会员服务
18+阅读 · 2020年12月31日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
专知会员服务
44+阅读 · 2020年3月6日
prompt你到底行不行?
夕小瑶的卖萌屋
6+阅读 · 2022年4月8日
视觉Prompt来了,效果超越微调!
夕小瑶的卖萌屋
2+阅读 · 2022年3月26日
Parameter-Efficient Fine-tuning 相关工作梳理
PaperWeekly
1+阅读 · 2022年3月19日
搭配对比学习,万能的 prompt 还能做可控文本生成
夕小瑶的卖萌屋
2+阅读 · 2022年3月17日
Prompt tuning新工作,五个参数解决下游任务 fine-tuning
夕小瑶的卖萌屋
2+阅读 · 2021年12月2日
别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!
夕小瑶的卖萌屋
0+阅读 · 2021年9月7日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
13+阅读 · 2019年1月26日
Knowledge Representation Learning: A Quantitative Review
VIP会员
相关VIP内容
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
23+阅读 · 2021年9月16日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
小米在预训练模型的探索与优化
专知会员服务
18+阅读 · 2020年12月31日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
专知会员服务
44+阅读 · 2020年3月6日
相关资讯
prompt你到底行不行?
夕小瑶的卖萌屋
6+阅读 · 2022年4月8日
视觉Prompt来了,效果超越微调!
夕小瑶的卖萌屋
2+阅读 · 2022年3月26日
Parameter-Efficient Fine-tuning 相关工作梳理
PaperWeekly
1+阅读 · 2022年3月19日
搭配对比学习,万能的 prompt 还能做可控文本生成
夕小瑶的卖萌屋
2+阅读 · 2022年3月17日
Prompt tuning新工作,五个参数解决下游任务 fine-tuning
夕小瑶的卖萌屋
2+阅读 · 2021年12月2日
别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!
夕小瑶的卖萌屋
0+阅读 · 2021年9月7日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员