尝试概述这个领域使我思考这个领域真正重要的是什么。尽管扩展无疑是显眼的,但其深远的影响更为微妙。我从三个角度分享我的对扩展的看法:

1)必须改变观点,因为某些能力只在一定的规模上出现。即使有些能力在当前代的LLM上不起作用,我们也不应该声称它不起作用。相反,我们应该认为它还没起作用。一旦有更大的模型可用,很多结论都会改变。

这也意味着我们需要不断忘记基于这些观点的过去的结论和直觉。

2)从基本原理出发,扩展Transformer意味着用许多、许多机器高效地进行矩阵乘法。我看到许多LLM领域的研究者不熟悉如何实际进行扩展。这一部分针对想要了解训练大型模型意味着什么的技术受众。

3)我谈论了我们应该考虑进一步的扩展(想象GPT-4规模的10000倍)。对我来说,扩展不仅仅是用更多的机器做同样的事情。它涉及到找出进一步扩展的瓶颈的归纳偏见。

我相信最大似然目标函数是达到GPT-4级10000倍规模的瓶颈。用一个表达力强的神经网络学习目标函数是下一个更具可扩展性的范式。随着计算成本呈指数级下降,可扩展的方法最终会胜出。不要与此竞争。

在所有这些部分中,我都努力从基本原理出发描述一切。在像LLM这样变化极快的领域,没有人能跟上。我相信,通过从基本原理推导来理解核心思想是唯一的可扩展方法。

成为VIP会员查看完整内容
132

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
【斯坦福博士论文】基础模型真实世界应用,178页pdf
专知会员服务
78+阅读 · 2023年6月15日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
84+阅读 · 2022年10月29日
【干货书】优化算法,232页pdf
专知会员服务
200+阅读 · 2022年9月8日
【2022新书】分布式机器学习Python实战,284页pdf
专知会员服务
137+阅读 · 2022年6月11日
专知会员服务
79+阅读 · 2021年10月19日
【干货书】优化算法,232页pdf
专知
26+阅读 · 2022年9月8日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员