Distilling knowledge from large proprietary models (e.g., GPT-4) to tiny deployable models (less than 1B parameters) faces a critical capacity-budget trap: the 1000x capacity gap between teachers and students prevents effective direct transfer, while API costs prohibit extensive data collection. We introduce BRIDGE (Budget-Aware Reasoning via Intermediate Distillation), a two-phase framework that resolves these constraints through strategic intermediation and budget asymmetry. In Phase 1, a mid-sized Teacher Assistant (TA; e.g., about 7B) learns from the black-box teacher on a strictly limited subset of data (e.g., 3-5%), selected via a zero-API-cost pipeline that balances entropic difficulty and semantic diversity using only local TA inference. In Phase 2, we exploit this asymmetry-teacher queries are expensive, whereas TA inference is free to amplify supervision: the refined TA generates synthetic rationales for the full dataset to train the tiny student. Crucially, we apply an instruction-tuning curriculum to establish behavioral alignment in the tiny student before transferring reasoning. Our theoretical analysis shows that BRIDGE yields tighter generalization bounds than direct distillation when data is abundant. Experiments across medical, legal, and financial benchmarks demonstrate consistent improvements: BRIDGE delivers student performance gains of 28-41%, closing the capability gap with proprietary teachers by 12-16% while using 10x fewer teacher queries. Notably, BRIDGE defies the conventional cost-performance frontier, surpassing direct distillation baselines that use 100% of the budget while consuming only 5% of the resources.


翻译:将知识从大型专有模型(如GPT-4)蒸馏到微型可部署模型(参数少于10亿)面临一个关键的容量-预算困境:师生之间1000倍的容量差距阻碍了有效的直接迁移,而API成本又限制了大规模数据收集。我们提出了BRIDGE(基于中间蒸馏的预算感知推理),这是一个通过策略性中介和预算不对称来解决这些约束的两阶段框架。在第一阶段,一个中等规模的教师助理(TA;例如约70亿参数)在严格限制的数据子集(例如3-5%)上向黑盒教师学习,该子集通过一个零API成本流程选取,该流程仅利用本地TA推理来平衡熵难度与语义多样性。在第二阶段,我们利用这种不对称性——教师查询昂贵,而TA推理免费——来放大监督:精炼后的TA为完整数据集生成合成推理链以训练微型学生模型。关键的是,我们在迁移推理能力之前,对微型学生模型应用指令微调课程以建立行为对齐。我们的理论分析表明,当数据充足时,BRIDGE能产生比直接蒸馏更紧的泛化界。在医学、法律和金融基准测试上的实验显示出一致的改进:BRIDGE使学生模型性能提升28-41%,将能力与专有教师的差距缩小12-16%,同时使用的教师查询量减少10倍。值得注意的是,BRIDGE突破了传统的成本-性能边界,其表现超越了使用100%预算的直接蒸馏基线,而仅消耗5%的资源。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员