来自清华大学的丁宁博士论文,入选2023年度“CCF博士学位论文激励计划”初评名单!
https://www.ccf.org.cn/Focus/2023-11-29/798503.shtml
大规模预训练语言模型正在重塑现代自然语言处理的基本范式。这类模型首 先在大规模的无标注语料中进行自监督地预训练,然后以预训练后的模型为初始 点进一步适配到各类下游任务中。作为预训练语言模型应用的重要一环,适配可 以使得模型应用到具体的场景和任务,同时使得其输出更加稳定和鲁棒,并与人 类的价值观对齐。然而,随着模型规模的不断增大,大规模预训练模型的适配面临 着严峻的挑战。如何在数据量不足的情况下进行泛化,以及如何减少其巨大的计 算和存储消耗,是当前亟待解决的问题。本文从数据高效和计算高效两个层面入 手,研究大规模预训练语言模型的高效适配技术,并且根据相应的技术构建系统、 数据和评测来促进具体的应用落地。
面向数据高效的模型适配,本文以知识获取应用为落脚点,针对存在大量弱 监督文本数据的场景,提出具有几何意义的原型学习的方法来学习类别的隐态表 征以更好地应对精标注数据不足的情况。针对不存在弱监督文本的场景,进一步 提出超球原型学习的表示方法来提升少样本学习的稳定性。对少样本的命名实体 识别,本文构建了第一个也是业内规模最大的细粒度实体识别数据集和三个具体 的识别任务,促进了少样本知识获取的发展。提出利用语言模型在预训练中的固 有特性,使用提示学习的方法来完成细粒度知识获取,在少样本和零样本的场景 上大幅超越传统的微调算法。
面向计算高效的模型适配,本文提出增量微调(Delta Tuning)框架,对大规 模语言模型的参数高效适配进行全面地分析、理论讨论和实验探索,在100 余个 任务上研究了增量微调的实验表现、迁移性、模型规模影响、组合性、泛化误差 和计算效率。同时将二阶优化应用至增量微调框架下的大规模预训练语言模型中, 并且提出了牛顿步裁剪的方法来稳定训练。
本文同时构建了模型数据高效和计算高效适配的开源系统。在数据高效层面, 本文构建了统一范式的提示学习系统OpenPrompt,打通了提示学习从数据处理到 模板构建再到模型训练的全流程。在计算高效层面,本文构建了统一范式的增量 微调系统OpenDelta,实现了不修改任何模型源代码的张量流转换,使得增量微调 可以适配到任意模型和模型的具体位置。