【导读】Transformer如何用于信息检索?橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程非常值得关注!

本教程侧重于提高基于transformer的方法的效率和鲁棒性的理论和实践方面,以便这些方法可以有效地用于实际的、高规模和高容量的信息检索(IR)场景。本教程的灵感和信息来自我们在使用大规模叙事数据集(85亿医疗笔记)时的工作和经验,以及我们在基于transformer的IR任务方面的基础研究和学术经验。此外,本教程重点介绍了使基于transformer的IR抗对抗(AI)开发的技术。这是我们最近在IR领域需要考虑的一个问题,我们希望与我们的读者分享一些经验教训和适用的原则。最后,本教程的一个重要(如果不是关键的话)元素是它对教学的关注——以一种清晰、直观、直白的方式提供教程内容。transformer是一门具有挑战性的学科,通过我们的教学经验,我们发现了一个巨大的价值和巨大的需求,以最直接、精确和直观的方式解释这个架构的所有相关方面和相关原则。这就是我们教程的定义风格。

本教程基于我们在一些最大的医疗叙事数据集(VA的85亿医疗笔记数据集[4])上开发信息检索(IR)系统的经验,以及对可靠、高效和性能良好的基础设施的需求,以开展与关键医疗问题(如前列腺癌、肺癌和肝癌)相关的跨学科、大规模医学研究;预防自杀;和心血管疾病。为了开发和支持这样的系统,我们必须改进IR管道的几个版本,并对基于Transformer/ BERT的模型进行数百次重新训练和微调。由于医疗记录的规模,以及频繁的重新训练和微调的需要,我们必须设计出有效的训练和微调方法,以及最有效地使用可用的异构资源(例如,多个版本的NVIDIA GPU和CUDA发行版),以便有一个IR管道能够有效地支持我们的项目。这些经验和教训促使我们编写本教程。此外,我们还教授研究生水平的“自然语言处理专题”课程,并进行研究,考察最先进的自然语言处理模型的效率和鲁棒性等问题。所有这些都促使我们编写了一个教程,向初级到中级的IR社区介绍与IR相关的改进方法和技术,并以Transformers网络为基础。

Transformers是一种强大的神经体系结构,在许多与信息检索相关的任务(自动摘要、搜索、阅读理解、机器翻译等)上,它的性能已经达到了接近或超越人类的水平。然而,基于Transformers的体系结构计算复杂,训练和调整可能会消耗资源,特别是对于长上下文的NLP任务。最近,新的方法已经被开发出来,旨在提高Transformers训练和微调的效率,特别是在提高自注意力和其他关键部件的运行效率方面。具体地说,本教程将集中在高效计算和高效、轻、快的变压器-模型大小减少和工作与高效的自注意力的技术和原则。本教程将描述如何使用蒸馏、修剪和量化来制作高效的基于Transformers的红外系统。我们将回顾高效的稀疏Transformers,如Linformer [8], BigBird [9], Reformer[3]和Performer[1],我们将回顾对关键系统性能指标的影响,如内存消耗,模型大小和运行时性能。为了减少模型尺寸,我们将涉及以下方法:

知识蒸馏

知识蒸馏是将“知识”从一个大模型转移到一个小模型的过程。这个过程概念化了教师和学生模型,其中知识从较大的教师模型转移到较小的学生模型[6]。在教程中,我们涵盖了微调知识蒸馏技术(从老师到学生的基础真实标签学习)和预训练的技术(例如,关于transformers的掩码语言模型的知识从老师转移到学生)。

权重修剪

权重修剪是一种模型压缩技术,它从模型中去除对模型结果没有贡献或贡献很小的权值。在IR的背景下,如果我们想要在较小的平台(如移动设备、辅助技术等)上部署一个计算复杂度和计算强度较小的模型,权重修剪是很有用的。在本教程中,我们将回顾一些最好的方法(使用分数矩阵、量级(非结构化)修剪、权重修剪等),以及相关优化库的使用(例如,神经网络块移动修剪[5])。我们讨论了修剪对ir相关任务的影响,随之而来的性能,以及修剪对不同GPU架构的影响。

量化

量化[2]是一种优化技术,目的是在可行的情况下降低数值表示精度。在transformer网络的背景下,该技术旨在识别和减少网络中权重的代表性大小。例如,如果我们有一个网络,参数存储在16位变量中,但信息位都存储在前6-8位中,我们将把权值/参数的表示减少到8位变量,从而节省50%的空间和相应的计算复杂度。在本教程中,我们将介绍三种量化方法(动态、静态和量化感知训练),演示使用PyTorch QFunctional包装器类的方法,并给出结果基准测试—所有这些都带有支持代码。

鲁棒性

最后,我们认识到语言模型也可能受到对抗性利用,我们将介绍一些基本技术,使面向IR的基于transformer的管道在对抗性利用方面更加鲁棒(例如,数据卫生防护[7])。

讲者:

【Hugging Face硬核书】Transformer自然语言处理(Hugging Face):构建语言应用

成为VIP会员查看完整内容
22

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
90+阅读 · 2022年4月5日
专知会员服务
27+阅读 · 2021年7月20日
【ECIR2021】信息检索技术进展: 从词袋到BERT,230页ppt
专知会员服务
54+阅读 · 2021年3月30日
彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
146+阅读 · 2020年11月1日
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年9月6日
Arxiv
0+阅读 · 2022年9月6日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
15+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
15+阅读 · 2018年6月23日
VIP会员
相关VIP内容
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
90+阅读 · 2022年4月5日
专知会员服务
27+阅读 · 2021年7月20日
【ECIR2021】信息检索技术进展: 从词袋到BERT,230页ppt
专知会员服务
54+阅读 · 2021年3月30日
彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
146+阅读 · 2020年11月1日
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年9月6日
Arxiv
0+阅读 · 2022年9月6日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
15+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
15+阅读 · 2018年6月23日
微信扫码咨询专知VIP会员