【博士论文】大规模预训练语言模型的高效适配技术研究

来自清华大学的丁宁博士论文，入选2023年度“CCF博士学位论文激励计划”初评名单！

https://www.ccf.org.cn/Focus/2023-11-29/798503.shtml

大规模预训练语言模型正在重塑现代自然语言处理的基本范式。这类模型首先在大规模的无标注语料中进行自监督地预训练，然后以预训练后的模型为初始点进一步适配到各类下游任务中。作为预训练语言模型应用的重要一环，适配可以使得模型应用到具体的场景和任务，同时使得其输出更加稳定和鲁棒，并与人类的价值观对齐。然而，随着模型规模的不断增大，大规模预训练模型的适配面临着严峻的挑战。如何在数据量不足的情况下进行泛化，以及如何减少其巨大的计算和存储消耗，是当前亟待解决的问题。本文从数据高效和计算高效两个层面入手，研究大规模预训练语言模型的高效适配技术，并且根据相应的技术构建系统、数据和评测来促进具体的应用落地。

面向数据高效的模型适配，本文以知识获取应用为落脚点，针对存在大量弱监督文本数据的场景，提出具有几何意义的原型学习的方法来学习类别的隐态表征以更好地应对精标注数据不足的情况。针对不存在弱监督文本的场景，进一步提出超球原型学习的表示方法来提升少样本学习的稳定性。对少样本的命名实体识别，本文构建了第一个也是业内规模最大的细粒度实体识别数据集和三个具体的识别任务，促进了少样本知识获取的发展。提出利用语言模型在预训练中的固有特性，使用提示学习的方法来完成细粒度知识获取，在少样本和零样本的场景上大幅超越传统的微调算法。

面向计算高效的模型适配，本文提出增量微调（Delta Tuning）框架，对大规模语言模型的参数高效适配进行全面地分析、理论讨论和实验探索，在100 余个任务上研究了增量微调的实验表现、迁移性、模型规模影响、组合性、泛化误差和计算效率。同时将二阶优化应用至增量微调框架下的大规模预训练语言模型中，并且提出了牛顿步裁剪的方法来稳定训练。

本文同时构建了模型数据高效和计算高效适配的开源系统。在数据高效层面，本文构建了统一范式的提示学习系统OpenPrompt，打通了提示学习从数据处理到模板构建再到模型训练的全流程。在计算高效层面，本文构建了统一范式的增量微调系统OpenDelta，实现了不修改任何模型源代码的张量流转换，使得增量微调可以适配到任意模型和模型的具体位置。

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】通往稳健在线学习的“在线集成”理论与方法

专知会员服务

29+阅读 · 2023年12月2日

【博士论文】大规模并行多层次不连续非线性可扩展理论研究及应用

专知会员服务

30+阅读 · 2023年1月22日

【博士论文】复杂环境下的大规模软件系统可靠性提升技术研究

专知会员服务

23+阅读 · 2023年1月13日

【博士论文】图像数据先验的数学建模及其应用

专知会员服务

24+阅读 · 2022年12月29日