本报告探讨了现代线性循环模型在长序列建模中的表现,并提出了更高效的循环更新规则。随着基础模型的上下文长度迅速增长,传统的Transformer模型在处理长序列时面临训练和推理的复杂性挑战。Transformer的训练时间复杂性与序列长度的平方成正比,导致长序列建模成本高昂,而推理时需要存储每个token的键值缓存,导致高内存负担。相比之下,传统的RNN在训练时具有线性复杂性,推理时具有恒定内存需求,但无法并行化训练,限制了其在大规模应用中的效率。 现代线性循环模型通过线性递归实现了并行训练,包括门控线性RNN、状态空间模型和线性注意力模型。Mamba2更类似于线性注意力模型而非状态空间模型。混合线性和Softmax注意力模型在大规模和长上下文任务中表现出色,能够达到GPT-4级别的性能。这些模型通过结合线性注意力和少量Softmax注意力层,实现了高效的训练和推理。

线性注意力通过去除Softmax操作,简化了标准注意力的计算。然而,线性注意力在训练时仍然面临序列长度的二次复杂性,且由于缺乏矩阵乘法操作,GPU利用率较低。为了解决这些问题,提出了分块并行形式,将序列分成多个块,分别计算历史上下文和局部上下文。这种方法在硬件上具有高效性,成为现代线性注意力模型训练的标准。 为了克服线性注意力模型在语言建模中的表现不佳问题,引入了衰减机制。通过引入指数衰减因子或动态衰减项,线性注意力模型能够更好地控制信息的遗忘和记忆,从而提升性能。DeltaNet通过在线回归损失优化了模型的预测能力,增强了键值关联记忆。Gated DeltaNet结合了DeltaNet的Delta更新规则和Mamba2的门控更新规则,进一步提升了模型的性能。 在多个基准测试中,DeltaNet和Gated DeltaNet在上下文关联记忆任务中表现出色,但在实际语言建模任务中仍略逊于Mamba2。Gated DeltaNet在长上下文理解和零样本推理任务中表现优异,尤其在处理复杂模式时表现出更强的记忆能力。 未来的研究方向包括超越在线线性回归目标,探索非线性回归损失,以及结合梯度优化技术,进一步提升模型的表达能力和硬件效率。现代线性循环模型通过在线学习视角,结合衰减机制和硬件高效的训练方法,展现了在处理长序列任务中的潜力。未来的研究将继续探索如何更好地结合上下文元学习和RNN架构,以进一步提升模型的性能。

成为VIP会员查看完整内容
4

相关内容

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作
专知会员服务
20+阅读 · 2024年10月1日
专知会员服务
30+阅读 · 2021年2月21日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
37+阅读 · 2021年1月24日
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
12+阅读 · 2020年11月13日
专知会员服务
27+阅读 · 2020年11月5日
专知会员服务
29+阅读 · 2020年10月2日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
专知会员服务
45+阅读 · 2020年3月6日
初学者系列:Deep FM详解
专知
108+阅读 · 2019年8月26日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月2日
Arxiv
0+阅读 · 1月1日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关主题
相关VIP内容
【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作
专知会员服务
20+阅读 · 2024年10月1日
专知会员服务
30+阅读 · 2021年2月21日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
37+阅读 · 2021年1月24日
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
12+阅读 · 2020年11月13日
专知会员服务
27+阅读 · 2020年11月5日
专知会员服务
29+阅读 · 2020年10月2日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
专知会员服务
45+阅读 · 2020年3月6日
相关资讯
初学者系列:Deep FM详解
专知
108+阅读 · 2019年8月26日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 1月2日
Arxiv
0+阅读 · 1月1日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
微信扫码咨询专知VIP会员