将推理能力从更强大的大型语言模型(LLMs)转移到较小模型一直具有很大的吸引力,因为较小的LLMs在部署时更加灵活且成本较低。在现有的解决方案中,知识蒸馏因其卓越的效率和泛化能力而脱颖而出。然而,现有的方法存在若干缺点,包括知识多样性有限和缺乏丰富的上下文信息。为了应对这些问题并促进紧凑语言模型的学习,我们提出了TinyLLM,一种新的知识蒸馏范式,用于从多个大型教师LLMs学习一个小型学生LLM。具体来说,我们鼓励学生LLM不仅生成正确的答案,还要理解这些答案背后的推理过程。鉴于不同的LLMs拥有多样的推理能力,我们引导学生模型从各种教师LLMs吸收知识。我们进一步引入了一个上下文示例生成器和一个教师引导的思维链策略,以确保推理过程准确并且在上下文中恰当。我们在六个数据集上的大量实验,涵盖了两个推理任务,证明了我们方法的优越性。结果表明,尽管模型规模较小,TinyLLM在性能上显著超越了大型教师LLMs。源代码可在以下网址获取:https://github.com/YikunHan42/TinyLLM。

成为VIP会员查看完整内容
15

相关内容

【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
26+阅读 · 7月2日
【NeurIPS 2023】基于时间注意力的多任务强化学习对比模块
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年9月27日
专知会员服务
37+阅读 · 2021年4月25日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
73+阅读 · 2020年9月25日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月23日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
26+阅读 · 7月2日
【NeurIPS 2023】基于时间注意力的多任务强化学习对比模块
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年9月27日
专知会员服务
37+阅读 · 2021年4月25日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
73+阅读 · 2020年9月25日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 12月23日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
微信扫码咨询专知VIP会员