尽管统计先验模型在各个领域得到了广泛应用,但对于神经网络梯度的此类模型长期以来却被忽视。其固有的挑战在于高维结构和复杂的相互依赖性,使得有效建模变得复杂。在本研究中,我们展示了大型语言模型(LLMs)在零样本设置中作为梯度先验的潜力。我们通过考虑无损梯度压缩这一分布式学习中的关键应用来检验这一特性,该应用高度依赖于精确的概率建模。为此,我们引入了一种新的方法 LM-GC,它将 LLMs 与算术编码结合。我们的方法将普通梯度转换为类似文本的格式,相比原始表示,令符效率提高了多达 38 倍。我们确保这种数据转换与普通梯度的结构以及 LLMs 通常识别的符号保持紧密一致。实验表明,LM-GC 超越了现有的最先进的无损压缩方法,在各种数据集和架构中压缩率提升了 10% 到 17.2%。此外,我们的方法与有损压缩技术(如量化和稀疏化)表现出良好的兼容性。这些研究结果突显了 LLMs 在有效处理梯度方面的巨大潜力。源码将在论文发表后发布。

成为VIP会员查看完整内容
11

相关内容

【NeurIPS2024】分子动力学轨迹的生成建模
专知会员服务
11+阅读 · 9月28日
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
19+阅读 · 2023年11月4日
专知会员服务
11+阅读 · 2021年7月16日
【WSDM2021】基于演化状态图的时间序列事件预测
专知会员服务
53+阅读 · 2020年12月1日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS2024】分子动力学轨迹的生成建模
专知会员服务
11+阅读 · 9月28日
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
19+阅读 · 2023年11月4日
专知会员服务
11+阅读 · 2021年7月16日
【WSDM2021】基于演化状态图的时间序列事件预测
专知会员服务
53+阅读 · 2020年12月1日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员