Scaling Law论文 - 专知

会员服务 ·

Scaling Law

从目前的研究总结发现，模型规模的扩展是LLM能力提升的一个关键因素。从GPT-3的175B参数量到PaLM的540B记录，都验证了模型规模的扩展，导致能力的提升。当然，大的模型尺寸是必不可少的，但是扩展定律并不仅限于此，它一共包括三个方面：模型尺寸（Model size）数据规模（Data size）总计算量（Total compute）此外，预训练数据的质量在保证模型性能方面有着关键作用，因此在扩展语料库时，要注意数据收集和清理的策略。

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space

Arxiv

0+阅读 · 10月30日

L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling

Arxiv

0+阅读 · 10月24日

Relative-Based Scaling Law for Neural Language Models

Arxiv

0+阅读 · 10月23日

DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving

Arxiv

0+阅读 · 10月14日

Scaling Law in LLM Simulated Personality: More Detailed and Realistic Persona Profile Is All You Need

Arxiv

0+阅读 · 10月10日

Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective

Arxiv

0+阅读 · 10月2日

Can Language Models Discover Scaling Laws?

Arxiv

0+阅读 · 9月29日

Parallel Scaling Law for Language Models

Arxiv

0+阅读 · 5月15日

Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches

Arxiv

0+阅读 · 3月3日

Scaling Large Language Model-based Multi-Agent Collaboration

Arxiv

0+阅读 · 3月17日

Scaling Large-Language-Model-based Multi-Agent Collaboration

Arxiv

0+阅读 · 2月28日

Unsourced Random Access in MIMO Quasi-Static Rayleigh Fading Channels: Finite Blocklength and Scaling Law Analyses

Arxiv

0+阅读 · 3月21日

Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families

Arxiv

0+阅读 · 2月5日

Parametric Scaling Law of Tuning Bias in Conformal Prediction

Arxiv

0+阅读 · 2月5日

How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines

Arxiv

0+阅读 · 2月17日

参考链接

微信扫码咨询专知VIP会员