本论文旨在研究构建更高效且更强大模型的方法,重点聚焦于两个方面:架构改进与优化方法。我们探讨了一系列具有理论依据的架构修改,这些修改要么降低了计算成本,要么引入了有助于更高效模型利用的新特性。此外,我们还研究了现有的优化方法,以加深我们对神经网络优化的理论理解,并使其更贴近实际应用,从而为未来构建更优的优化器提供更有依据的决策基础。

在论文的第一部分,我们提出了三种对Transformer模型的增强,以应对处理长序列、提升数据效率和优化推理成本等关键挑战。首先,我们提出了Landmark Attention机制,以提升处理长序列的效率,在我们的实验中,该方法将推理成本显著降低了一个大常数因子(达50倍)。通过在注意力机制中引入层级结构,Landmark Attention 能够在推理阶段处理任意长度的输入,而不受训练时序列长度的限制。接着,我们提出了DenseFormer架构,它允许后续层访问前面所有层的输出。得益于增强的信息流,DenseFormer 在保持与更深Transformer模型相同困惑度(perplexity)的同时,在内存效率和推理速度方面均优于基线模型。我们的实验还揭示了信息流中意料之外的连贯模式,显示出远层激活被结构化重用的现象。最后,我们提出了CoTFormer以提升推理效率,其灵感来自大型语言模型中逐步推理的涌现能力。CoTFormer 通过对一个浅层模型的重复应用,实现了与更深模型相当的准确率。该方法虽然引入了额外计算开销,但支持按token粒度灵活调整推理成本。我们的结果表明,在训练自适应CoTFormer时,能在不损失精度的前提下,显著减少计算成本,因其能自动将计算资源分配给最需要的token。

在论文的第二部分,我们聚焦于提升对神经网络优化的理解,动因之一即源于在设计自适应CoTFormer优化方法时遇到的挑战。我们构建了一个理论框架,用于研究参数扰动(parameter perturbation)以及屏蔽参数更新(masking parameter updates)对收敛性的影响。此外,我们通过理论分析与实证实验,加深了对“大步长对于获得更优模型至关重要”这一现象的理解。特别是,我们构造了一个受控实验环境,使得小步长与大步长之间的差异可以被严格地观测和验证。

关键词:语言模型、效率、优化、神经网络、Transformers

成为VIP会员查看完整内容
9

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】迈向可扩展、灵活的点云场景流
专知会员服务
14+阅读 · 3月21日
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
27+阅读 · 2024年8月16日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员