梯度截断论文 - 专知

会员服务 ·

梯度截断

截断，即通过某个阈值来控制系数的大小，若系数小于某个阈值便将该系数设置为0，即简单截断。

GeoClip: Geometry-Aware Clipping for Differentially Private SGD

Arxiv

0+阅读 · 10月27日

DDBot: Differentiable Physics-based Digging Robot for Unknown Granular Materials

Arxiv

0+阅读 · 10月27日

DDBot: Differentiable Physics-based Digging Robot for Unknown Granular Materials

Arxiv

0+阅读 · 10月21日

DDBot: Differentiable Physics-based Digging Robot for Unknown Granular Materials

Arxiv

0+阅读 · 10月20日

Regularized Gradient Clipping Provably Trains Wide and Deep Neural Networks

Arxiv

0+阅读 · 4月8日

ZClip: Adaptive Spike Mitigation for LLM Pre-Training

ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Arxiv

0+阅读 · 4月3日

Nonconvex Stochastic Optimization under Heavy-Tailed Noises: Optimal Convergence without Gradient Clipping

Arxiv

0+阅读 · 3月17日

Nonconvex Stochastic Optimization under Heavy-Tailed Noises: Optimal Convergence without Gradient Clipping

Arxiv

0+阅读 · 2024年12月27日

On the Convergence of DP-SGD with Adaptive Clipping

Arxiv

0+阅读 · 2024年12月27日

Optimized Gradient Clipping for Noisy Label Learning

Arxiv

1+阅读 · 2024年12月19日

Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise

Arxiv

0+阅读 · 2024年11月19日

Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise

Arxiv

0+阅读 · 2024年11月13日

Smoothed Gradient Clipping and Error Feedback for Decentralized Optimization under Symmetric Heavy-Tailed Noise

Arxiv

0+阅读 · 2024年11月11日

Random Function Descent

Arxiv

0+阅读 · 2024年10月15日

From Gradient Clipping to Normalization for Heavy Tailed SGD

Arxiv

0+阅读 · 2024年10月17日

参考链接

父主题

微信扫码咨询专知VIP会员