知识蒸馏(KD)已成为压缩大规模语言模型(LLM)的一种流行技术。现有的KD方法受限于教师模型和学生模型之间必须使用相同的标记器(即词汇表),这限制了其在处理不同架构家族的LLM时的通用性。本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。我们的方法通过使用多种成本矩阵,在标记级和序列级对教师和学生的logit分布进行对齐,从而消除了维度或逐标记符对应的需求。

在标记级,MultiLevelOT通过联合优化序列中的所有标记,整合了全局和局部信息,从而增强了鲁棒性。在序列级,我们通过Sinkhorn距离高效捕捉logits的复杂分布结构,该距离近似于Wasserstein距离,用于度量分布的散度。通过在抽取式问答、生成式问答和摘要等任务上的大量实验证明,MultiLevelOT在各种设置下优于现有的跨标记器KD方法。我们的 approach 对不同的学生和教师模型在不同的模型家族、架构和参数规模下表现出较强的鲁棒性。

成为VIP会员查看完整内容
0

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
36+阅读 · 2022年10月4日
【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩
专知会员服务
23+阅读 · 2022年6月10日
专知会员服务
21+阅读 · 2021年10月8日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
36+阅读 · 2022年10月4日
【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩
专知会员服务
23+阅读 · 2022年6月10日
专知会员服务
21+阅读 · 2021年10月8日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员