Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

【导读】Transformer如何用于信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程非常值得关注！

本教程侧重于提高基于transformer的方法的效率和鲁棒性的理论和实践方面，以便这些方法可以有效地用于实际的、高规模和高容量的信息检索(IR)场景。本教程的灵感和信息来自我们在使用大规模叙事数据集(85亿医疗笔记)时的工作和经验，以及我们在基于transformer的IR任务方面的基础研究和学术经验。此外，本教程重点介绍了使基于transformer的IR抗对抗(AI)开发的技术。这是我们最近在IR领域需要考虑的一个问题，我们希望与我们的读者分享一些经验教训和适用的原则。最后，本教程的一个重要(如果不是关键的话)元素是它对教学的关注——以一种清晰、直观、直白的方式提供教程内容。transformer是一门具有挑战性的学科，通过我们的教学经验，我们发现了一个巨大的价值和巨大的需求，以最直接、精确和直观的方式解释这个架构的所有相关方面和相关原则。这就是我们教程的定义风格。

本教程基于我们在一些最大的医疗叙事数据集(VA的85亿医疗笔记数据集[4])上开发信息检索(IR)系统的经验，以及对可靠、高效和性能良好的基础设施的需求，以开展与关键医疗问题(如前列腺癌、肺癌和肝癌)相关的跨学科、大规模医学研究;预防自杀;和心血管疾病。为了开发和支持这样的系统，我们必须改进IR管道的几个版本，并对基于Transformer/ BERT的模型进行数百次重新训练和微调。由于医疗记录的规模，以及频繁的重新训练和微调的需要，我们必须设计出有效的训练和微调方法，以及最有效地使用可用的异构资源(例如，多个版本的NVIDIA GPU和CUDA发行版)，以便有一个IR管道能够有效地支持我们的项目。这些经验和教训促使我们编写本教程。此外，我们还教授研究生水平的“自然语言处理专题”课程，并进行研究，考察最先进的自然语言处理模型的效率和鲁棒性等问题。所有这些都促使我们编写了一个教程，向初级到中级的IR社区介绍与IR相关的改进方法和技术，并以Transformers网络为基础。

Transformers是一种强大的神经体系结构，在许多与信息检索相关的任务(自动摘要、搜索、阅读理解、机器翻译等)上，它的性能已经达到了接近或超越人类的水平。然而，基于Transformers的体系结构计算复杂，训练和调整可能会消耗资源，特别是对于长上下文的NLP任务。最近，新的方法已经被开发出来，旨在提高Transformers训练和微调的效率，特别是在提高自注意力和其他关键部件的运行效率方面。具体地说，本教程将集中在高效计算和高效、轻、快的变压器-模型大小减少和工作与高效的自注意力的技术和原则。本教程将描述如何使用蒸馏、修剪和量化来制作高效的基于Transformers的红外系统。我们将回顾高效的稀疏Transformers，如Linformer [8]， BigBird [9]， Reformer[3]和Performer[1]，我们将回顾对关键系统性能指标的影响，如内存消耗，模型大小和运行时性能。为了减少模型尺寸，我们将涉及以下方法:

知识蒸馏

知识蒸馏是将“知识”从一个大模型转移到一个小模型的过程。这个过程概念化了教师和学生模型，其中知识从较大的教师模型转移到较小的学生模型[6]。在教程中，我们涵盖了微调知识蒸馏技术(从老师到学生的基础真实标签学习)和预训练的技术(例如，关于transformers的掩码语言模型的知识从老师转移到学生)。

权重修剪

权重修剪是一种模型压缩技术，它从模型中去除对模型结果没有贡献或贡献很小的权值。在IR的背景下，如果我们想要在较小的平台(如移动设备、辅助技术等)上部署一个计算复杂度和计算强度较小的模型，权重修剪是很有用的。在本教程中，我们将回顾一些最好的方法(使用分数矩阵、量级(非结构化)修剪、权重修剪等)，以及相关优化库的使用(例如，神经网络块移动修剪[5])。我们讨论了修剪对ir相关任务的影响，随之而来的性能，以及修剪对不同GPU架构的影响。

量化

量化[2]是一种优化技术，目的是在可行的情况下降低数值表示精度。在transformer网络的背景下，该技术旨在识别和减少网络中权重的代表性大小。例如，如果我们有一个网络，参数存储在16位变量中，但信息位都存储在前6-8位中，我们将把权值/参数的表示减少到8位变量，从而节省50%的空间和相应的计算复杂度。在本教程中，我们将介绍三种量化方法(动态、静态和量化感知训练)，演示使用PyTorch QFunctional包装器类的方法，并给出结果基准测试—所有这些都带有支持代码。

鲁棒性

最后，我们认识到语言模型也可能受到对抗性利用，我们将介绍一些基本技术，使面向IR的基于transformer的管道在对抗性利用方面更加鲁棒(例如，数据卫生防护[7])。

讲者：