从目前的研究总结发现,模型规模的扩展是LLM能力提升的一个关键因素。从GPT-3的175B参数量到PaLM的540B记录,都验证了模型规模的扩展,导致能力的提升。 当然,大的模型尺寸是必不可少的,但是扩展定律并不仅限于此,它一共包括三个方面: 模型尺寸(Model size) 数据规模(Data size) 总计算量(Total compute) 此外,预训练数据的质量在保证模型性能方面有着关键作用,因此在扩展语料库时,要注意数据收集和清理的策略。
暂无数据
参考链接
微信扫码咨询专知VIP会员