成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Scaling Law
关注
0
从目前的研究总结发现,模型规模的扩展是LLM能力提升的一个关键因素。从GPT-3的175B参数量到PaLM的540B记录,都验证了模型规模的扩展,导致能力的提升。 当然,大的模型尺寸是必不可少的,但是扩展定律并不仅限于此,它一共包括三个方面: 模型尺寸(Model size) 数据规模(Data size) 总计算量(Total compute) 此外,预训练数据的质量在保证模型性能方面有着关键作用,因此在扩展语料库时,要注意数据收集和清理的策略。
综合
百科
VIP
热门
动态
论文
精华
Scaling Laws for Online Advertisement Retrieval
Arxiv
0+阅读 · 11月20日
Scaling Law for Post-training after Model Pruning
Arxiv
0+阅读 · 11月15日
Scaling Law Hypothesis for Multimodal Model
Arxiv
0+阅读 · 11月11日
Scaling Law Hypothesis for Multimodal Model
Arxiv
0+阅读 · 11月7日
Scaling Law with Learning Rate Annealing
Arxiv
0+阅读 · 10月24日
A Hitchhiker's Guide to Scaling Law Estimation
Arxiv
0+阅读 · 10月15日
Covariance-Based Activity Detection in Cooperative Multi-Cell Massive MIMO: Scaling Law and Efficient Algorithms
Arxiv
0+阅读 · 10月21日
Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Arxiv
0+阅读 · 10月28日
Knowledge-Aware Parsimony Learning: A Perspective from Relational Graphs
Arxiv
0+阅读 · 10月10日
LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law
Arxiv
0+阅读 · 10月9日
Observational Scaling Laws and the Predictability of Language Model Performance
Arxiv
0+阅读 · 10月1日
Covariance-Based Activity Detection in Cooperative Multi-Cell Massive MIMO: Scaling Law and Efficient Algorithms
Arxiv
0+阅读 · 9月27日
Symbolic Regression with a Learned Concept Library
Arxiv
0+阅读 · 9月14日
MuPT: A Generative Symbolic Music Pretrained Transformer
Arxiv
0+阅读 · 9月10日
Performance Law of Large Language Models
Arxiv
0+阅读 · 9月10日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top