ACL 2022 | 给注意力升升温，模型摘要的有效蒸馏

2022 年 9 月 22 日 PaperWeekly

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型，为了减少其计算开销，一般使用蒸馏中的伪标记方法。本文中，作者讨论了伪标记方法在获取生成式摘要上存在的问题，并展示了仅仅通过调整注意力温度（Attention temperature）即可提升学生模型生成摘要的能力。

论文标题：

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议：

ACL 2022

论文链接：

https://arxiv.org/abs/2106.03441

Method

自动文本摘要是将长文档改写为较短的形式，同时仍然保留其最重要的内容，一般分为抽取式摘要和生成式摘要，前者直接从文本中抽取主题句形成摘要，而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好，所以本文主要研究生成式摘要的问题。

生成式摘要问题可以视为一个序列到序列（Seq2Seq）问题，一般依赖于大规模预训练模型。但是由于其推理速度较慢，很难实际部署，所以一般采用知识蒸馏方法将大模型的知识传递给小模型，从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中，一般采取 pseudo-labling（伪标记 [1] ）方法：也即先向教师模型输入所有训练集样本，并让教师模型生成 pseudo-summary（伪摘要），并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时，其目标函数为最大化 log-likelihood：

其中，

分别表示原文档和生成的摘要。而伪摘要法只需加上如下的目标函数即可：

在本文中，作者提出，Seq2Seq 教师模型的注意力分布过于 sharp，导致其生成的伪摘要并不是最优的，从而进一步导致了学生模型表现不好。作者观察到，教师模型生成的伪摘要从原文档中复制的连续文本跨度比 reference summary（参考摘要）更多，并且更加倾向于总结文档的开头部分。

如下图所示，作者对模型中的 cross-attention 进行了可视化。容易看出，attention weights 形成了三条比较明显的线，这说明每当 decoder 预测下一个词的时候，模型的 attention 刚好指向文档中的下一个词，这可能就是导致伪摘要中有很多复制的连续文本的原因；同时，作者发现所有的值较大的 attention weights 都集中在输入文档的前 200 个词，这便是导致摘要倾向于文档开头部分的原因。

注意力机制是 Transformer 模型的核心部分：

其中，均为每层 hidden states 的线性投影，则是该注意力模块的温度，一般为，其中为一个注意力头的隐藏层维度。作者认为，导致注意力分布过于 sharp 的原因就是该温度较低。如果将该温度变高，可以将分布变得更加 smooth，从而缓解这一问题。所以，作者提出了 PLATE 方法（Pseudo-labeling with Larger Attention TEmperature），在教师模型生成伪摘要时，设，然后再训练学生模型，但不改变学生模型的 attention temperature。

Experiments

作者选取了 CNN/DailyMail [2] ，XSum [3] ，New York Times [4] 三个数据集进行实验，实验结果如下图所示：

上图的第一大块中，作者对比了不同的大规模预训练模型，最终采用了自己 finetune 的 BART 模型做为教师模型生成伪摘要；第二大块中，作者选取了 [5] 中采用不同方法得到的学生模型表现进行了对比，其中在 CNNDM 上为 BART 结构，在 XSum 上为 BART 结构（结构表示沿用了 BART 的结构，只是把 decoder 的层数从层降到了层）。

第三、四两块中，作者对比了自己蒸馏得到的两种结构学生模型的表现，每个模型的表示直接根据训练集中的 reference 采用 finetune 得到的模型，表示采用了一般的 pseudo-labeling 方法得到的模型，也即没有改变注意力温度；分别为采取不同系数增大注意力温度得到的模型，则是采用了针对每一个文档都随机选取一个值训练得到的模型。

从图中可以观察到，提高了 attention temperature 后，得到的模型在三个数据集上的表现均超过了改变前的模型，甚至部分表现都超过了教师模型。

第五块中，作者采用了 self-distillation，也即教师模型和学生模型采用了相同的结构。作者发现，本文的方法在多个方面提升了模型性能。第六块中，作者还在 Transformer 上应用了提出的方法，同样观察到了性能提升。

在 Transformer 结构中，注意力机制主要包括 encoder 自注意力、decoder 自注意力以及 decoder 交叉注意力三种，作者在此基础上进行了消融实验：分别将这三部分注意力的温度改为原来的大小（也即），并观察学生模型在 CNNDM 验证集上的结果，如下图所示。发现 decoder cross attention 对模型影响最大，这与预期相同，因为其直接影响到选择摘要的过程。

如下图所示，作者还从模型摘要的长度和 novel n-grams 进行了探究。novel n-grmas 是指在摘要中出现，但未在原文档中出现的 n-gram。摘要长度越短，novel n-grams 越多，说明模型生成的摘要越 concise 且 abstractive，再结合之前的 Rouge 分数，说明模型生成摘要的质量越高。如下图所示可以发现，通过提高的值，可以有效提升教师模型生成摘要的能力，从而进一步提升学生模型的能力。

除此之外，根据 [6] 的结论，当模型具有高预测熵时，摘要模型更加倾向于生成而不是复制；且模型的高预测熵与高注意力熵是紧密关联的。本文中，作者通过提高平滑了注意力分布，从而提高了注意力熵，所以生成能力有所提高，这与 [6] 的结论是不谋而合的。

Conclusion

在本文中，作者提出了一种简单但有效的 pseudo-labeling distillation 方法的 PLATE 扩展，用于摘要蒸馏。在三个数据集上的实验表明，该方法可以有效提高教师模型生成摘要的能力，进一步也使学生模型产生的摘要更加简洁和抽象。

参考文献

[1] Yoon Kim and Alexander M. Rush. 2016. Sequencelevel knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327, Austin, Texas. Association for Computational Linguistics.

[2] Karl Moritz Hermann, Tomás Kocisky, Edward Grefen- ` stette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In NIPS.

[3] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. 2018. Don’t give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium. Association for Computational Linguistics.

[4] Evan Sandhaus. 2008. The new york times annotated corpus. Linguistic Data Consortium, Philadelphia, 6(12):e26752.

[5] Sam Shleifer and Alexander M Rush. 2020. Pretrained summarization distillation. arXiv preprint arXiv:2010.13002.

[6] Jiacheng Xu, Shrey Desai, and Greg Durrett. 2020b. Understanding neural abstractive summarization models via uncertainty. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6275–6281, Online. Association for Computational Linguistics.

更多阅读