论文标题:
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning
https://arxiv.org/abs/2110.07867
作者提出了大家都非常关心的问题:预训练模型是如何通过任务无关的预训练目标(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)来学到知识,并且能使用少量的数据就能将预训练模型运用到下游差异巨大的任务中(fine-tuning; prompt-tuning)。
在论文中,作者提出了假设:将预训练模型迁移到各种下游任务的优化问题可以重参数化为在同一低维参数子空间中只优化少数几个自由参数的问题,作者称之为 intrinsic task subspace. (本征子空间)如下图所示:
注: Intrinsic dimension(ID)指的是用来表示数据或者近似函数所需要的最小的变量的数目。之前有工作直接将 PLM 的参数投影到线性子空间上,然后发现许多的 NLP 任务的 Intrinsic dimension 可以低于万维,这也启发了作者的工作)
如果上述假设成立,那么 task-specific optimization subspaces 的存在可以解释 PLMs 的通用性,同时本征子空间的低维度的特性可以解释 adaptations(fine-tuing; prompt-tuning)可以在相对小规模数据集上训练。从这个观点来看,PLMs 可以看成通用的 compressive frameworks,可以将不同任务的学习复杂度从高维降到低维。
为了证明上述假设,就需要找出 PLMs 的本征子空间(intrinsic task subspaces)。在论文中,作者通过 Prompt Tuning 来寻找公共 intrinsic subspace。因为直接让所有的 PLMs 的参数直接降维在计算上是困难的,并且 Prompt Tuning 在结构上不复杂,方便降维。
作者将论文中采用的方法称之为 intrinsic prompt tuning(IPT),IPT 主要包括两个阶段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的阶段,我们获得多任务下的经过优化的 soft prompts,然后训练一个自动编码器将这些 soft prompt 投影到低维的子空间上,最后将这些低维子空间上反向投影,重建成新的 prompt。这样经过优化的自动编码器就可以定义目标的本征子空间。在 IST 阶段,对于之前陌生的任务和数据,只需要调节在 MSF 阶段找到的低维子空间上的参数然后通过逆投影就可解决问题。
作者在实验上发现这个本征子空间不仅存在,而且维度非常低。在由 100 个随机任务上利用 MSF 得到的 5 维的本征子空间上,利用 IST 的方法可以对那些 100 个已经见过的任务(但是不同的数据)达到 prompt tuning 87% 的效果。对于 20 个没见过的任务,能达到 prompt tuning 65% 的效果。同时作者也表示通过 MSF 找到的本征子空间和 IPT 具有使用价值,比如可以用来分析 nlp 任务上的区别以及提升模型的稳定性。
Methodology
1.1 Preliminaries
对于给定的一系列 NLP 任务,
, 其中既包括了 NLU 任务,又包括了 NLG 任务。但不失一般性,可以将任务定义为
, 其中
,
,目标就是习得映射函数:
。
1.2 Intrinsic Prompt Tuning
1.2.1 Multi-task Subspace Finding
在 MSF 的阶段,对于每一个下游任务
,都会得到得到一个训练好的 soft prompts
。会使用 auto-encoder 将
投影到
维上,再逆投影回原来的维度得到重建后的 prompt
。
其中
,是用来投影到低维度的网络,是一层 FNN,
则是两层的感知机用来做逆投影:
同时还引入重建的 Prompt
在对应任务上的损失
。得到 MSF 阶段的训练目标:
其中
是控制两种 loss 比率的超参,
表示
和
的参数。
1.2.2 Intrinsic Subspace Tuning
在这个阶段,作者希望验证在 MSF 阶段找到的子空间的有效性。具体而言,保持在 MSF 阶段参数
以及预训练模型参数固定,对每一个任务,仅仅是调节本征子空间上
个自由参数,然后通过
逆投影成 soft prompts,目标函数如下:
Experiment and Analysis
2.1 Experimental Settings
其中
表示在任务
上 IPT 的结果对应的测试分数。
则表示在 prompt tuning(
)的表现或者在 fine tuning 上的表现(
)。
在论文中,作者使用
作为主要评价指标,
作为辅助评价指标。
将 120 个 NLP 任务划分成训练任务集
,测试任务集
,满足
。
在 MSF 的阶段,模型在
上训练,然后在
上测试
和
的结果。用来测试重建的 prompts 效果,这也为模型在 unseen data 和 tasks 上的表现提供一个经验性的上界。在
上测试了 soft prompts 重建的结果,用来探究 auto-encoder 对于未见过的 prompts 的重建能力。
在 IST 阶段,在
上使用 IST 来探究在子空间上的优化的表现。为了检验 IPT 的泛化能力,设计了两种任务:
1. unseen-data challenge. 在
上使用重新采样的 K-shot
来进行 IST 的过程。
2. unseen-task challenge. 在
上检验由 IPT 获得的 soft prompts 的效果。检验 IPT 在 unseen-task 上的效果,以此来证明不同 NLP 任务对应的子空间是不相互独立的。
2.2 Main Result
2.2.1 Q1 PLMs是否真的将few-shot设置下多样的NLP任务重参数化为低维子空间任务?
Figure 3(a)显示,在 unseen-data challenge 上,使用
的 IST 能够恢复完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需调节本征子空间上的 5-100个 参数就可以达到 prompt tuning 的 60% 的效果。作者认为这为他们的猜想也就是 PLMs 将多样的 NLP 任务重参数化为低维子空间任务提供了证据。或者至少证明了这些任务被重参数化为低维子空间后存在交集,否则由
得到的子空间几乎不可能对
有效。
1. 在 MSF 阶段,重建 soft prompts 的效果甚至要优于原始的 prompt tunning。说明(1)MSF 可以通过促进在低维度上的多任务技能的分享来提升 prompt tuning 的表现。(2)在本征子空间上至少存在较优的解,能被 MSF 找到。但是即使是同样的训练数据 IST 也不能找到这些 good solutions, 因此
与
之间存在差距,说明采取的优化算法限制了 IST 的表现。
2.
与
存在差距,说明直接在未知任务上进行 soft prompts 的重构表现不佳。说明 MSF 的重构能力限制了它的泛化性。
3. IPT相对 fine-tuning 的表现要逊于相对于在 prompt-tunning 下的表现。是因为 prompt-tuning 在 few-shot 场景下要比 fine-tuning 弱,启发设计更有效的 prompt-tuning 算法。
1. 分类任务和非分类任务存在较大的差异。
2. 当提升
时,non-cls 任务的表现会下降,cls 任务的表现会上升。这表明 non-cls 任务的本征子空间的维度可能远小于 cls 任务。
2.3 Analyses and Properties
2.3.1 Visualization of the Found Intrinsic Subspace
1. 分类任务和非分类任务之间较大的差异,这也解释了之前的问题。
2.
和
对应的向量在空间上是混合的,说明被找到的子空间对于未知的任务具有一定的泛化能力。
3. 从(C)和(D)中还可以观察到,属于同一类别的点表现为紧密的簇。说明学习到的 intrinsic 向量可以作为任务的低维表示,可以用来分析多种 NLP 任务之间的异同。
2.3.2 Impacts of the Number of Training Tasks
随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。
2.3.3 Impacts of the Number of Shots
随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。
2.3.4 Improving Prompt Tuning Stability
Prompt 是最不稳定的策略,会影响到 Prompt tuning 的使用,IPT 可以帮助 Prompt tuning 更稳定。可以用 IPT 的结果去初始化 Prompt Tuning。
作者并没有直接得出在 PLMs 上的不同 NLP 任务可以重参数化为在相同子空间上的优化。但找到了一个可信的结果:不同任务被重参数化在低维子空间上后存在交集,并且能被 MSF 找到。作者希望未来的工作能不能设计更好的框架去证明这个本征子空间的存在,使 IPT 具有更好的泛化性能。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧