CVPR 2022 | 量化网络的反向求导拟合方法 - 专知

会员服务 ·

0

CVPR 2022 | 量化网络的反向求导拟合方法

2022 年 11 月 10 日 PaperWeekly

©作者 | 刘泽春

单位 | Meta

研究方向 | 神经网络压缩与加速

今天来分享一个冷知识： 量化网络的反向求导拟合方法 。详细推导可以在我们今年的 CVPR 论文中找到：

论文标题：

Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via Generalized Straight-Through Estimation

论文链接：

https://arxiv.org/pdf/2111.14826.pdf

代码连接：

https://github.com/liuzechun/Nonuniform-to-Uniform-Quantization

Straight-through estimator（STE）是 quantization 中常见的求导方式。原因是 quantization 是一个离散的方程，无法计算它的导数，所以 STE 就简单粗暴地直接把输出的导数作为了对输入的导数：

▲ 图1

这个求导方式足够简单，效果也非常好，以至于它统治 quantization 领域很多年。我们今天就来深度理解一下这个 STE 求导背后的原理，看似简单的 STE 其实包含了概率统计的原理。为什么这么说呢，我们就从二值 quantization 切入。

如图 2 所示，二值 quantization，把实数值量化成只用 {-1, 1} 两个值表示。通常二值化函数有两种量化模式：deterministic quantization（确定量化）和 stochastic quantization（随机量化）

Eq(1) 确定量化就是当实数值超过某个阈值（比如 0）时量化成 1，不到阈值时量化成 -1。

Eq(2) 随机量化就是在区间内（比如 [-1,1]）以到区间两端的距离为概率，量化成 1 或者 -1。

这是正向传播过程，计算导数的时候，我们会发现这两种方式的导数其实变成了一样的。

确定量化用的是 STE，即在 [-1,1] 区间内，是一个直通函数：

而随机量化的导数则是把随机量化的概率期望作为反向传播时候的求导对象：

然后我们发现，这两者其实是是一样的。那么我们也就理解了 STE 为什么能行得通， 因为 STE 本质上就是把概率量化的平均值作为确定量化的反向求导函数。

那么问题来了：这个有意思的发现能帮我们干什么呢？

我们在 N2UQ 论文中发现当我们把二值量化拓展到更高比特量化的时候，这个特性就可以帮我们推导出一些更 general 的 STE 方法。我们一直在思考的一个问题是，为什么 quantization 函数有那么多 levels，却只用一个 STE 显得不是很合理，如果把这些 level 分别对应一个 STE 会发生什么呢？

在 N2UQ 中我们就把量化函数看做了多段二值化函数的总和，从而，每一个二值化函数都可以用对应的概率量化的平均值计算确定量化反向求导的函数。

通过这样一个非常符合直觉和数学推导的改进，我们可以轻松实现量化区间单独可学的量化方程，并且保证输出依旧是 uniform quantization（均匀量化），从而可以享有均匀量化的硬件友好性。这种更灵活的量化方式带来了更高的量化精度，（目前应该还是 state-of-the-art）。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

登录查看更多

0

相关内容

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知会员服务

48+阅读 · 2022年10月24日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知会员服务

150+阅读 · 2022年8月29日

【AAAI2022】锚框排序知识蒸馏的目标检测

【AAAI2022】锚框排序知识蒸馏的目标检测

专知会员服务

26+阅读 · 2022年2月10日

AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究

AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究

专知会员服务

17+阅读 · 2021年12月23日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

18+阅读 · 2021年12月12日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

ICML 2022 | 稀疏双下降：网络剪枝也能加剧模型过拟合？

ICML 2022 | 稀疏双下降：网络剪枝也能加剧模型过拟合？

PaperWeekly

0+阅读 · 2022年7月22日

一文详解基于流的深度生成模型

一文详解基于流的深度生成模型

PaperWeekly

1+阅读 · 2022年7月7日

后训练量化——Data free quantization

后训练量化——Data free quantization

极市平台

2+阅读 · 2021年12月26日

【白话模型量化系列】矩阵乘法量化

【白话模型量化系列】矩阵乘法量化

极市平台

0+阅读 · 2021年11月26日

目标检测回归损失函数总结

目标检测回归损失函数总结

极市平台

0+阅读 · 2021年10月27日

Softmax 函数和它的误解

Softmax 函数和它的误解

极市平台

0+阅读 · 2021年10月15日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

PyTorch 学习笔记（四）：权值初始化的十种方法

PyTorch 学习笔记（四）：权值初始化的十种方法

极市平台

14+阅读 · 2019年5月1日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

基于场景稀疏表示的压缩感知雷达成像方法

国家自然科学基金

0+阅读 · 2013年12月31日

调和函数水平集的几何性质

国家自然科学基金

0+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

基于纵向数据的秩回归和分位数回归的有效参数估计

国家自然科学基金

0+阅读 · 2012年12月31日

信号传导网络对基因表达随机调控的数学模型及其在医学中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

与实数非整数基表示相关的若干分形问题

国家自然科学基金

0+阅读 · 2011年12月31日

基于曲波的波动方程偏移速度分析

国家自然科学基金

0+阅读 · 2011年12月31日

最小失配网络的理论研究

国家自然科学基金

0+阅读 · 2008年12月31日

Neural Image Compression with a Diffusion-Based Decoder

Arxiv

0+阅读 · 2023年1月13日

A Stochastic Proximal Polyak Step Size

Arxiv

0+阅读 · 2023年1月12日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Conditional Random Field and Deep Feature Learning for Hyperspectral Image Segmentation

Arxiv

11+阅读 · 2017年12月27日

VIP会员

相关主题

神经网络压缩

相关VIP内容

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知会员服务

48+阅读 · 2022年10月24日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知会员服务

150+阅读 · 2022年8月29日

【AAAI2022】锚框排序知识蒸馏的目标检测

【AAAI2022】锚框排序知识蒸馏的目标检测

专知会员服务

26+阅读 · 2022年2月10日

AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究

AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究

专知会员服务

17+阅读 · 2021年12月23日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

18+阅读 · 2021年12月12日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

热门VIP内容

开通专知VIP会员享更多权益服务

AI CITY发展研究报告：“人工智能+”时代的智慧城市发展范式创新（2025年）

风格迁移：十年综述

【ICCV2025】CL-Splats：结合局部优化的高斯泼洒持续学习方法

【HKUST博士论文】迈向可扩展且具泛化能力的时空预测

相关资讯

ICML 2022 | 稀疏双下降：网络剪枝也能加剧模型过拟合？

ICML 2022 | 稀疏双下降：网络剪枝也能加剧模型过拟合？

PaperWeekly

0+阅读 · 2022年7月22日

一文详解基于流的深度生成模型

一文详解基于流的深度生成模型

PaperWeekly

1+阅读 · 2022年7月7日

后训练量化——Data free quantization

后训练量化——Data free quantization

极市平台

2+阅读 · 2021年12月26日

【白话模型量化系列】矩阵乘法量化

【白话模型量化系列】矩阵乘法量化

极市平台

0+阅读 · 2021年11月26日

目标检测回归损失函数总结

目标检测回归损失函数总结

极市平台

0+阅读 · 2021年10月27日

Softmax 函数和它的误解

Softmax 函数和它的误解

极市平台

0+阅读 · 2021年10月15日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

PyTorch 学习笔记（四）：权值初始化的十种方法

PyTorch 学习笔记（四）：权值初始化的十种方法

极市平台

14+阅读 · 2019年5月1日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

相关基金

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

基于场景稀疏表示的压缩感知雷达成像方法

国家自然科学基金

0+阅读 · 2013年12月31日

调和函数水平集的几何性质

国家自然科学基金

0+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

基于纵向数据的秩回归和分位数回归的有效参数估计

国家自然科学基金

0+阅读 · 2012年12月31日

信号传导网络对基因表达随机调控的数学模型及其在医学中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

与实数非整数基表示相关的若干分形问题

国家自然科学基金

0+阅读 · 2011年12月31日

基于曲波的波动方程偏移速度分析

国家自然科学基金

0+阅读 · 2011年12月31日

最小失配网络的理论研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Neural Image Compression with a Diffusion-Based Decoder

Arxiv

0+阅读 · 2023年1月13日

A Stochastic Proximal Polyak Step Size

Arxiv

0+阅读 · 2023年1月12日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Conditional Random Field and Deep Feature Learning for Hyperspectral Image Segmentation

Arxiv

11+阅读 · 2017年12月27日

大家都在搜

大型语言模型

斯坦福博士论文

无人机系统

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员