Knowledge distillation (KD) is a standard route to compress Large Language Models (LLMs) into compact students, yet most pipelines uniformly apply token-wise loss regardless of teacher confidence. This indiscriminate supervision amplifies noisy, high-entropy signals and is especially harmful under large teacher-student capacity gaps. We introduce SelecTKD, a plug-and-play Selective Token-Weighted distillation framework that shifts the focus from "how to measure divergence" to "where to apply learning". At each step, the student proposes tokens that are verified by the teacher through a robust propose-and-verify procedure with two variants: greedy Top-k and non-greedy Spec-k. Accepted tokens receive full loss, while rejected tokens are masked or down-weighted. This objective-agnostic design works with on- and off-policy data, induces an implicit curriculum quantified by Token Acceptance Rate (TAR), and stabilizes optimization. Across instruction following, mathematical reasoning, code generation, and a VLM setting, SelecTKD consistently improves strong baselines and achieves state-of-the-art results for small models without architectural changes or extra reference models.


翻译:知识蒸馏是将大语言模型压缩为紧凑学生模型的标准路径,然而多数流程无论教师模型置信度如何,均采用统一的令牌级损失。这种不加区分的监督会放大噪声高熵信号,在师生模型容量差距较大时尤为有害。本文提出SelecTKD——一种即插即用的选择性令牌加权蒸馏框架,将关注点从“如何度量差异”转向“在何处施加学习”。每一步中,学生模型提出候选令牌,由教师模型通过包含两种变体(贪婪Top-k与非贪婪Spec-k)的鲁棒性“提议-验证”流程进行验证。被接受的令牌获得完整损失,而被拒绝的令牌则被掩蔽或降权处理。这种目标无关的设计适用于在线与离线策略数据,通过令牌接受率量化隐式课程学习过程,并稳定优化过程。在指令跟随、数学推理、代码生成及视觉语言模型场景中,SelecTKD持续提升现有强基线性能,无需修改架构或引入额外参考模型,即为小规模模型取得了最先进的结果。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员