LLMCad:快速可扩展的设备上大型语言模型推理 - 专知VIP

会员服务 ·

15

LLMCad · 大模型 · 大型语言模型 ·

2023 年 9 月 11 日

LLMCad:快速可扩展的设备上大型语言模型推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

生成性任务，如文本生成和问答，在移动应用领域占据着关键地位。由于对隐私问题的敏感性，对它们在移动设备上直接执行的需求正在增长。目前，执行这些生成性任务在很大程度上依赖于大型语言模型（LLMs）。然而，这些设备的有限内存容量对这些模型的可扩展性构成了严峻挑战。在我们的研究中，我们介绍了LLMCad，一种专门设计用于高效生成自然语言处理（NLP）任务的创新型设备内推理引擎。LLMCad的核心思想围绕模型协作展开：一个位于内存中的紧凑型LLM负责生成最直接的标记，而一个高精度的LLM则负责验证这些标记并纠正任何已识别的错误。LLMCad引入了三种新技术：（1）与按顺序生成候选标记不同，LLMCad利用较小的LLM构建标记树，包含更广泛的可信标记路径。随后，较大的LLM可以高效地同时验证所有这些路径。（2）它采用了一种自动调整的回退策略，当较小的LLM生成错误的标记时，迅速启动验证过程。（3）为了确保标记的连续生成流，LLMCad在验证过程中通过实施计算-IO流水线来猜测生成标记。通过一系列广泛的实验，LLMCad展示了印象深刻的标记生成速度，达到了比现有推理引擎快9.3倍的速度。

成为VIP会员查看完整内容

35

相关内容

LLMCad

大型语言模型对齐

大型语言模型对齐

专知会员服务

118+阅读 · 2023年9月27日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

94+阅读 · 2023年8月31日

Transformer推理的全栈优化综述

Transformer推理的全栈优化综述

专知会员服务

83+阅读 · 2023年3月4日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

21+阅读 · 2023年3月1日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知会员服务

52+阅读 · 2022年2月20日

鲁棒和隐私保护的协同学习

鲁棒和隐私保护的协同学习

专知会员服务

37+阅读 · 2021年12月22日

视觉识别的无监督域适应研究综述

视觉识别的无监督域适应研究综述

专知会员服务

32+阅读 · 2021年12月17日

DARPA可解释人工智能

DARPA可解释人工智能

专知会员服务

131+阅读 · 2020年12月22日

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【ICML2020】持续终身学习的神经主题建模

【ICML2020】持续终身学习的神经主题建模

专知会员服务

39+阅读 · 2020年6月22日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知

5+阅读 · 2023年4月5日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知

5+阅读 · 2022年11月23日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知

0+阅读 · 2022年11月6日

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

专知

0+阅读 · 2022年11月5日

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

专知

2+阅读 · 2022年10月28日

时空数据挖掘:综述

时空数据挖掘:综述

专知

33+阅读 · 2022年6月30日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

479+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

VIP会员

相关主题

大型语言模型

相关VIP内容

大型语言模型对齐

大型语言模型对齐

专知会员服务

118+阅读 · 2023年9月27日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

94+阅读 · 2023年8月31日

Transformer推理的全栈优化综述

Transformer推理的全栈优化综述

专知会员服务

83+阅读 · 2023年3月4日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

21+阅读 · 2023年3月1日

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

【WWW2022】学习和评估基于反事实和事实推理的图神经网络解释

专知会员服务

52+阅读 · 2022年2月20日

鲁棒和隐私保护的协同学习

鲁棒和隐私保护的协同学习

专知会员服务

37+阅读 · 2021年12月22日

视觉识别的无监督域适应研究综述

视觉识别的无监督域适应研究综述

专知会员服务

32+阅读 · 2021年12月17日

DARPA可解释人工智能

DARPA可解释人工智能

专知会员服务

131+阅读 · 2020年12月22日

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【ICML2020】持续终身学习的神经主题建模

【ICML2020】持续终身学习的神经主题建模

专知会员服务

39+阅读 · 2020年6月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知

5+阅读 · 2023年4月5日

【AAAI2023】基于历史对比学习的时序知识图谱推理

【AAAI2023】基于历史对比学习的时序知识图谱推理

专知

3+阅读 · 2022年11月23日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知

5+阅读 · 2022年11月23日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知

0+阅读 · 2022年11月6日

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

专知

0+阅读 · 2022年11月5日

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

【牛津大学博士论文】面向有效、高效、公平的隐私保护机器学习

专知

2+阅读 · 2022年10月28日

时空数据挖掘:综述

时空数据挖掘:综述

专知

33+阅读 · 2022年6月30日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

相关基金

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

479+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员