尝试概述这个领域使我思考这个领域真正重要的是什么。尽管扩展无疑是显眼的,但其深远的影响更为微妙。我从三个角度分享我的对扩展的看法:
1)必须改变观点,因为某些能力只在一定的规模上出现。即使有些能力在当前代的LLM上不起作用,我们也不应该声称它不起作用。相反,我们应该认为它还没起作用。一旦有更大的模型可用,很多结论都会改变。
这也意味着我们需要不断忘记基于这些观点的过去的结论和直觉。
2)从基本原理出发,扩展Transformer意味着用许多、许多机器高效地进行矩阵乘法。我看到许多LLM领域的研究者不熟悉如何实际进行扩展。这一部分针对想要了解训练大型模型意味着什么的技术受众。
3)我谈论了我们应该考虑进一步的扩展(想象GPT-4规模的10000倍)。对我来说,扩展不仅仅是用更多的机器做同样的事情。它涉及到找出进一步扩展的瓶颈的归纳偏见。
我相信最大似然目标函数是达到GPT-4级10000倍规模的瓶颈。用一个表达力强的神经网络学习目标函数是下一个更具可扩展性的范式。随着计算成本呈指数级下降,可扩展的方法最终会胜出。不要与此竞争。
在所有这些部分中,我都努力从基本原理出发描述一切。在像LLM这样变化极快的领域,没有人能跟上。我相信,通过从基本原理推导来理解核心思想是唯一的可扩展方法。