一文跟进Prompt进展！综述+15篇最新论文逐一梳理

2021 年 11 月 4 日 夕小瑶的卖萌屋

文 | ZenMoore
编 | 小轶

自从 Dr.Pengfei Liu 的那篇 prompt 综述发表开始，prompt 逐渐红得发紫。近期清华、谷歌等单位你方唱罢我登场，涌现了好多好多 prompt 相关的论文。无论是工业界还是学术界，想必大家都在疯狂 follow。不少伙伴肯定从老板那里领到了 “prompt 技术分享” 的任务哈哈！

所以这篇文章先基于 7月份的 prompt survey 做一个简单扫盲，然后再为大家梳理一下其后 4 个月的 prompt 最新进展，共包括 15 篇论文。无论是作为大家调研 prompt 的 starter 也好，还是作为大家技术分享的 checklist 也好，希望都可以帮助到大家!

Prompt 扫盲

论文标题：
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
论文链接：
https://arxiv.org/abs/2107.13586
往期推文：
《Fine-tune之后的NLP新范式：Prompt越来越火，CMU华人博士后出了篇综述文章》

这篇就是入门必看的综述啦，非常精彩。这里做一个简单的概述。

NLP 的范式演进历程大体经历了这样四个阶段：

后两个范式是讨论的重点：

预训练+精调范式：让 预训练模型 (PLM) 去适应 下游任务
Prompt 范式：让 下游任务适应 预训练模型 (PLM)

Prompt, 简单来说就是：将下游任务的输入输出形式改造成预训练任务中的形式，即 MLM (Masked Language Model) 的形式。

比如：对于情感分类，原有的任务形式是：输入：“今天天气好”输出：“正面情绪”标签的判别结果

在 prompt 范式下，这会将输入改造为：输入：“今天天气好，我的情绪是\[MASK\]的。输出：“开心”当然，具体实现的时候，还需要一个额外的映射将“开心”识别为“正面情绪”标签。这个映射显然是比较简单的。

更加形式化的定义如下图所示：

形式化地讲，在 prompt 范式下，需要通过以下三个步骤建立从输入到输出的 pipeline。

Prompt Addition : 将原本的输入代入 prompt 模板(也叫模式)，得到

Answer Search : 将 x' 输给 LM，得到“最高分”的输出

Answer Mapping : 上一步得到的输出是预训练任务形式的输出，可能和下游任务需要的输出形式少许区别，所以还需要一步转换。比如，上一步得到的，则我们这一步可能需要把它映射为。这里的 map 函数也常常被叫做 Verbalizer。

相应地，在使用 prompt 时，主要从以下五个方面进行考虑。在我们阅读 prompt 相关论文时，也要先搞清楚这篇工作是着重解决了以下哪个方面的问题。

预训练模型的选择 :
Prompt Engineering : 也就是模板的实现方式，涉及两个方面

Prompt Shape : prompt (准确地说应该是槽 [X]) 在文本开头叫做 prefix prompt, 在文本中间或者结尾叫做 cloze prompt.
Prompt 的构建：可以手动设计，也可以自动构建(搜索、优化、生成等)。自动构建 prompt 的方法又可以按照 “离散(通常为文本形式)/连续(embedding space)” 或者 “静态/动态(是否随着输入改变)” 进行分类。

Answer Engineering : 如何选择 prompt 结果的目标空间的选择；以及得到答案后如何完成的映射。
Multi-prompt：如何设计多个 prompt 获得更好的效果？常见方式包括以下 5 种

Prompt Ensembling : 集成学习(利用不同的 prompt 来进行各模型的差异化)
Prompt Augmentation : 对 prompt 进行数据增强
Prompt Composition : 把几个 prompt 进行合并
Prompt Decomposition : 把一个 prompt 拆解为若干 sub-prompt
Prompt Sharing : 不同的模型、task 等共享一套 prompt

prompt 范式下的训练策略：是否存在 prompt-related 参数？对 LM 的参数以及 prompt-related 参数要不要进行 tuning ？根据这两个问题的答案进行组合，可得 5 种 parameter 更新方式，如下图所示：

读完这篇 survey，基本就可以算是入门 prompt 了。强烈推荐大家看论文原文更为的详细梳理。

prompt 近四个月进展

继这篇 survey 后，prompting 相关的论文更是层出不穷，常常一经发表就是爆款。相信大家肯定紧紧地跟住了时代的脚步，但难免记忆力跟不上看论文的速度:)

这里先给大家推荐几个 prompt 相关的资源。这几个网站持续更新着 prompt 的最新进展和开源代码，相信能有效帮助各位紧跟时事~

Prompting LeaderBoard
http://explainaboard.nlpedia.ai/leaderboard/prompting/

Homepage NLPedia
http://pretrain.nlpedia.ai/

Timeline of Prompt Learning
http://pretrain.nlpedia.ai/timeline.html

Follow-up : PromptPapers
https://github.com/thunlp/PromptPapers

Open-Source Framework : OpenPrompt
https://github.com/thunlp/OpenPrompt

接下来，我们也为大家梳理了今年 7 月以来的 15 篇最新 prompting 工作。如下表所示：

（注：以下所选工作按照 arxiv 发表时间进行排序。此处论文的选择可能有点主观，而且也不一定完全，仅作参考。相信在笔者所知之外，还有许多精彩工作。）

1.null prompts (07/01)

论文标题：
Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models
论文链接：
https://arxiv.org/abs/2106.13353

Motivation

为每个下游任务都设计一套 prompt 模板费时费力。如何简化 prompt engineering ?
原来模型的训练参数量太大了。如何提升 memory efficiency 呢?

Method

既然设计模板那么费事，那么我们干脆就“自暴自弃”不设计模板好了。这篇文章就提出了所谓 null prompt 的方法，其实就是所有任务都用 input + [MASK] 的形式作为 prompt 模板。

Experiments

Simplifying Prompt Engineering

第一个实验是：基于 prompt 的 finetuning (有 prompt, 进行 finetuning)

实验结论：

为每个任务手工设计一套 prompt 效果仍然是最好的, 但是太费时费力了。
null prompts 比 prompt tuning （fine-tune时对模板部分进行梯度优化）表现要好一点。

Prompt-Only Tuning

第二个实验是：自学习更好的 prompt 标识，不对 LM 进行 fine-tuning

上图中的 AutoPrompt 是指自动搜索离散 prompt。All Parameters 则是对 LM 做了 fine-tuning 的一组对照结果。

实验结论：Prompting 根本打不过 finetuning （不过作者说这可能并不矛盾，可能只是因为没有严格控制实验变量......）

Memory-Efficient

Adapters : 只调插入在 Transformer FNN 中的神经网络层。

Calibration : 在与 Verbalizer Tokens 相关的 logits 之上套一层仿射变换，只学习这个仿射变换。

BitFit : 只调 Transformer 的 bias 项。

LM Head Tuning : 只调与 Verbalizer Tokens 相关的输出层 embedding.

实验结论：BitFit yyds(永远的神) !

Conclusion

在 few-shot settings 下，最好的选择是：finetuning with null prompts and BitFit.

但是，这仅仅针对 MLM 而言。针对超大规模模型或者单向语言模型，需要进一步的研究。