Adam论文 - 专知

会员服务 ·

Adam

Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise

Arxiv

0+阅读 · 10月15日

Modeling AdaGrad, RMSProp, and Adam with Integro-Differential Equations

Modeling AdaGrad, RMSProp, and Adam with Integro-Differential Equations

Arxiv

0+阅读 · 10月13日

Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks

Arxiv

0+阅读 · 10月13日

DP-Adam-AC: Privacy-preserving Fine-Tuning of Localizable Language Models Using Adam Optimization with Adaptive Clipping

Arxiv

0+阅读 · 10月6日

Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization

Arxiv

0+阅读 · 10月6日

Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization

Arxiv

0+阅读 · 9月30日

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

Arxiv

0+阅读 · 9月26日

Empirical Validation of Functional Multidimensional Scaling via Numerical Simulation and Real-World Application

Arxiv

0+阅读 · 5月20日

Continuous-Time Analysis of Heavy Ball Momentum in Min-Max Games

Arxiv

0+阅读 · 5月26日

Better Embeddings with Coupled Adam

Arxiv

0+阅读 · 8月1日

Generalised Reachability Games Revisited

Arxiv

0+阅读 · 9月17日

Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)

Arxiv

0+阅读 · 5月19日

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

Arxiv

0+阅读 · 6月11日

The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers

Arxiv

0+阅读 · 6月18日

The Epochal Sawtooth Effect: Unveiling Training Loss Oscillations in Adam and Other Optimizers

Arxiv

0+阅读 · 5月22日

参考链接

微信扫码咨询专知VIP会员