能源高效的任务适应：利用异构内存架构进行NLP边缘推断 (Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures) - 专知论文

会员服务 ·

0

推断 · 内存 · 边缘 · 异构 · NLP ·

2023 年 3 月 25 日

Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures

翻译：能源高效的任务适应：利用异构内存架构进行NLP边缘推断

Zirui Fu,Aleksandre Avaliani,Marco Donato

from arxiv, 10 pages, 6 figures, 3 tables

Executing machine learning inference tasks on resource-constrained edge devices requires careful hardware-software co-design optimizations. Recent examples have shown how transformer-based deep neural network models such as ALBERT can be used to enable the execution of natural language processing (NLP) inference on mobile systems-on-chip housing custom hardware accelerators. However, while these existing solutions are effective in alleviating the latency, energy, and area costs of running single NLP tasks, achieving multi-task inference requires running computations over multiple variants of the model parameters, which are tailored to each of the targeted tasks. This approach leads to either prohibitive on-chip memory requirements or paying the cost of off-chip memory access. This paper proposes adapter-ALBERT, an efficient model optimization for maximal data reuse across different tasks. The proposed model's performance and robustness to data compression methods are evaluated across several language tasks from the GLUE benchmark. Additionally, we demonstrate the advantage of mapping the model to a heterogeneous on-chip memory architecture by performing simulations on a validated NLP edge accelerator to extrapolate performance, power, and area improvements over the execution of a traditional ALBERT model on the same hardware platform.

翻译：在资源受限的边缘设备上执行机器学习推断任务需要仔细的硬件-软件协同设计优化。最近的例子已经表明，如ALBERT等基于transformer的深度神经网络模型可以用于在移动片上系统上运行自然语言处理（NLP）推断，这些系统配备了定制的硬件加速器。然而，这些现有的解决方案在减轻运行单个NLP任务的延迟、能量和面积成本方面是有效的，但实现多任务推断需要在针对每个目标任务量身定制的多个模型参数变体之间运行计算。这种方法会导致禁止在芯片上内存的要求或支付外部内存访问的成本。本文提出了Adapter-ALBERT，这是一种最大限度地利用不同任务之间的数据复用的高效模型优化。我们在GLUE基准测试中评估了所提出模型的性能和对数据压缩方法的鲁棒性。此外，我们演示了将模型映射到异构芯片上内存架构的优点，通过在验证的NLP边缘加速器上进行模拟，推断相对于在同一硬件平台上执行传统ALBERT模型的性能、功率和面积的改进。

0

相关内容

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习

【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习

专知会员服务

25+阅读 · 2022年1月20日

【MIT硬核新书】深度神经网络高效处理，82页pdf，Efficient Processing of DNN

【MIT硬核新书】深度神经网络高效处理，82页pdf，Efficient Processing of DNN

专知会员服务

129+阅读 · 2020年6月22日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

专知会员服务

34+阅读 · 2020年4月11日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Ladder Side-Tuning：预训练模型的“过墙梯”

Ladder Side-Tuning：预训练模型的“过墙梯”

PaperWeekly

0+阅读 · 2022年6月24日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合存储和计算模式下的大图处理优化技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向比特粒度信息处理的并行计算关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向通用GPU虚拟化多任务的三维堆叠存储架构研究

国家自然科学基金

0+阅读 · 2013年12月31日

功耗自适应视频编码与多核处理器架构优化研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向高能效和低延时的多核共享资源冲突约束方法

国家自然科学基金

0+阅读 · 2012年12月31日

面向手性化合物分离的模拟移动床异步控制基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线网络中分布式存储的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

一种适用于高维问题的Co-kriging代理模型新方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

研究有计算能力的可扩展的模块化的射电天文信号处理平台

国家自然科学基金

0+阅读 · 2009年12月31日

An Adaptive Ensemble Framework for Addressing Concept Drift in IoT Data Streams

Arxiv

0+阅读 · 2023年5月18日

Accelerating Transformer Inference for Translation via Parallel Decoding

Arxiv

0+阅读 · 2023年5月17日

Bringing AI to the edge: A formal M&S specification to deploy effective IoT architectures

Arxiv

0+阅读 · 2023年5月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

Enabling Deep Learning on Edge Devices

Arxiv

19+阅读 · 2022年10月6日

A Review and Roadmap of Deep Learning Causal Discovery in Different Variable Paradigms

Arxiv

22+阅读 · 2022年9月14日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Interpretable and Efficient Heterogeneous Graph Convolutional Network

Arxiv

15+阅读 · 2021年9月8日

A Survey of Machine Learning for Computer Architecture and Systems

Arxiv

18+阅读 · 2021年2月16日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

VIP会员

文章信息

相关主题

相关VIP内容

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习

【AAAI2022】GearNet:弱监督领域自适应的逐步对偶学习

专知会员服务

25+阅读 · 2022年1月20日

【MIT硬核新书】深度神经网络高效处理，82页pdf，Efficient Processing of DNN

【MIT硬核新书】深度神经网络高效处理，82页pdf，Efficient Processing of DNN

专知会员服务

129+阅读 · 2020年6月22日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

专知会员服务

34+阅读 · 2020年4月11日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

Ladder Side-Tuning：预训练模型的“过墙梯”

Ladder Side-Tuning：预训练模型的“过墙梯”

PaperWeekly

0+阅读 · 2022年6月24日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

An Adaptive Ensemble Framework for Addressing Concept Drift in IoT Data Streams

Arxiv

0+阅读 · 2023年5月18日

Accelerating Transformer Inference for Translation via Parallel Decoding

Arxiv

0+阅读 · 2023年5月17日

Bringing AI to the edge: A formal M&S specification to deploy effective IoT architectures

Arxiv

0+阅读 · 2023年5月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

Enabling Deep Learning on Edge Devices

Arxiv

19+阅读 · 2022年10月6日

A Review and Roadmap of Deep Learning Causal Discovery in Different Variable Paradigms

Arxiv

22+阅读 · 2022年9月14日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Interpretable and Efficient Heterogeneous Graph Convolutional Network

Arxiv

15+阅读 · 2021年9月8日

A Survey of Machine Learning for Computer Architecture and Systems

Arxiv

18+阅读 · 2021年2月16日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

相关基金

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合存储和计算模式下的大图处理优化技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向比特粒度信息处理的并行计算关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向通用GPU虚拟化多任务的三维堆叠存储架构研究

国家自然科学基金

0+阅读 · 2013年12月31日

功耗自适应视频编码与多核处理器架构优化研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向高能效和低延时的多核共享资源冲突约束方法

国家自然科学基金

0+阅读 · 2012年12月31日

面向手性化合物分离的模拟移动床异步控制基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线网络中分布式存储的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

一种适用于高维问题的Co-kriging代理模型新方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

研究有计算能力的可扩展的模块化的射电天文信号处理平台

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员