Transformer模型的块位压缩 (Block-wise Bit-Compression of Transformer-based Models) - 专知论文

会员服务 ·

0

Transformer模型 · Transformer · BERT · 层规范化 · GLUE ·

2023 年 4 月 1 日

Block-wise Bit-Compression of Transformer-based Models

翻译：Transformer模型的块位压缩

Gaochen Dong,Wei Chen

from arxiv, Need to add figures and adjust languages to improve readability

With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.

翻译：随着BERT、GPT-3和ChatGPT等Transformer模型的流行，自然语言处理任务的性能呈现出最新最优。但是，Transformer模型的巨大计算量、巨大内存占用和高延迟成为云计算中必须克服的挑战。为了解决这个问题，我们提出了BBCT方法，它是一种基于块的Transformer位压缩方法，无需重新训练。我们的方法对整个Transformer实现了更细粒度的压缩，包括嵌入、矩阵乘法、GELU、softmax、层规范化以及所有中间结果。作为案例，我们使用BBCT方法压缩一个高效的BERT。我们在General Language Understanding Evaluation（GLUE）基准测试中的结果显示，BBCT在大多数任务中可以实现不到1%的准确性下降。

0

相关内容

Transformer模型

Transformer模型

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

不可压缩磁流体力学方程组高效有限元算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

针对GPU的高效并行任务执行设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

PKCα与UNC5B相互作用调控膀胱癌细胞药物敏感性的分子机制

国家自然科学基金

0+阅读 · 2013年12月31日

差分共振声谱法岩石纵、横波速度的低频测量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

二亚硝基哌嗪（DNP）介导Clusterin表达参与鼻咽癌转移的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

一类带有算术函数指数和的几个应用

国家自然科学基金

0+阅读 · 2013年12月31日

逆向合成指导的芳香化酶抑制剂全新药物设计和高通量虚拟筛选

国家自然科学基金

1+阅读 · 2012年12月31日

不可压缩流边界控制问题的可扩展并行算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于随机有限元的岩体工程可靠度方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization

Arxiv

0+阅读 · 2023年5月23日

Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers

Arxiv

0+阅读 · 2023年5月22日

DeepJSCC-l++: Robust and Bandwidth-Adaptive Wireless Image Transmission

Arxiv

0+阅读 · 2023年5月22日

Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline

Arxiv

0+阅读 · 2023年5月22日

RWKV: Reinventing RNNs for the Transformer Era

Arxiv

3+阅读 · 2023年5月22日

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

Arxiv

0+阅读 · 2023年5月19日

Large Language Models can be Guided to Evade AI-Generated Text Detection

Arxiv

0+阅读 · 2023年5月19日

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network

Arxiv

0+阅读 · 2023年5月19日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

On the Opportunities and Risks of Foundation Models

Arxiv

30+阅读 · 2021年8月18日

VIP会员

文章信息

相关主题

Transformer模型

相关VIP内容

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

最新《扩散模型原理》新书，470页pdf

无人机作战：演进、创新与未来战场

AI 智能体简史

多模态空间推理在大模型时代：综述与基准测试

相关资讯

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

相关论文

Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization

Arxiv

0+阅读 · 2023年5月23日

Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers

Arxiv

0+阅读 · 2023年5月22日

DeepJSCC-l++: Robust and Bandwidth-Adaptive Wireless Image Transmission

Arxiv

0+阅读 · 2023年5月22日

Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline

Arxiv

0+阅读 · 2023年5月22日

RWKV: Reinventing RNNs for the Transformer Era

Arxiv

3+阅读 · 2023年5月22日

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

Arxiv

0+阅读 · 2023年5月19日

Large Language Models can be Guided to Evade AI-Generated Text Detection

Arxiv

0+阅读 · 2023年5月19日

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network

Arxiv

0+阅读 · 2023年5月19日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

On the Opportunities and Risks of Foundation Models

Arxiv

30+阅读 · 2021年8月18日

相关基金

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

不可压缩磁流体力学方程组高效有限元算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

针对GPU的高效并行任务执行设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

PKCα与UNC5B相互作用调控膀胱癌细胞药物敏感性的分子机制

国家自然科学基金

0+阅读 · 2013年12月31日

差分共振声谱法岩石纵、横波速度的低频测量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

二亚硝基哌嗪（DNP）介导Clusterin表达参与鼻咽癌转移的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

一类带有算术函数指数和的几个应用

国家自然科学基金

0+阅读 · 2013年12月31日

逆向合成指导的芳香化酶抑制剂全新药物设计和高通量虚拟筛选

国家自然科学基金

1+阅读 · 2012年12月31日

不可压缩流边界控制问题的可扩展并行算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于随机有限元的岩体工程可靠度方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员