成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Scaling Law
关注
0
从目前的研究总结发现,模型规模的扩展是LLM能力提升的一个关键因素。从GPT-3的175B参数量到PaLM的540B记录,都验证了模型规模的扩展,导致能力的提升。 当然,大的模型尺寸是必不可少的,但是扩展定律并不仅限于此,它一共包括三个方面: 模型尺寸(Model size) 数据规模(Data size) 总计算量(Total compute) 此外,预训练数据的质量在保证模型性能方面有着关键作用,因此在扩展语料库时,要注意数据收集和清理的策略。
综合
百科
VIP
热门
动态
论文
精华
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families
Arxiv
0+阅读 · 2024年12月25日
The Scaling Law for LoRA Base on Mutual Information Upper Bound
Arxiv
0+阅读 · 1月6日
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families
Arxiv
1+阅读 · 2024年12月23日
P$^2$ Law: Scaling Law for Post-Training After Model Pruning
Arxiv
1+阅读 · 2024年12月16日
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families
Arxiv
0+阅读 · 2024年12月9日
Scalable Analysis of Urban Scaling Laws: Leveraging Cloud Computing to Analyze 21,280 Global Cities
Arxiv
0+阅读 · 2024年12月3日
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models
Arxiv
0+阅读 · 2024年11月29日
Scaling Laws for Online Advertisement Retrieval
Arxiv
0+阅读 · 2024年11月20日
Scaling Law for Post-training after Model Pruning
Arxiv
0+阅读 · 2024年11月15日
Scaling Law Hypothesis for Multimodal Model
Arxiv
0+阅读 · 2024年11月11日
Scaling Law Hypothesis for Multimodal Model
Arxiv
0+阅读 · 2024年11月7日
Scaling Law with Learning Rate Annealing
Arxiv
0+阅读 · 2024年10月24日
A Hitchhiker's Guide to Scaling Law Estimation
Arxiv
0+阅读 · 2024年10月15日
Covariance-Based Activity Detection in Cooperative Multi-Cell Massive MIMO: Scaling Law and Efficient Algorithms
Arxiv
0+阅读 · 2024年10月21日
Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Arxiv
0+阅读 · 2024年10月28日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top