Aiming at achieving artificial general intelligence (AGI) for Metaverse, pretrained foundation models (PFMs), e.g., generative pretrained transformers (GPTs), can effectively provide various AI services, such as autonomous driving, digital twins, and AI-generated content (AIGC) for extended reality. With the advantages of low latency and privacy-preserving, serving PFMs of mobile AI services in edge intelligence is a viable solution for caching and executing PFMs on edge servers with limited computing resources and GPU memory. However, PFMs typically consist of billions of parameters that are computation and memory-intensive for edge servers during loading and execution. In this article, we investigate edge PFM serving problems for mobile AIGC services of Metaverse. First, we introduce the fundamentals of PFMs and discuss their characteristic fine-tuning and inference methods in edge intelligence. Then, we propose a novel framework of joint model caching and inference for managing models and allocating resources to satisfy users' requests efficiently. Furthermore, considering the in-context learning ability of PFMs, we propose a new metric to evaluate the freshness and relevance between examples in demonstrations and executing tasks, namely the Age of Context (AoC). Finally, we propose a least context algorithm for managing cached models at edge servers by balancing the tradeoff among latency, energy consumption, and accuracy.


翻译:为了实现元宇宙的人工智能通用性 (AGI),如生成式预训练变压器 (GPT) 等预训练基础模型 (PFMs) 可有效提供各种人工智能服务,例如自动驾驶、数字孪生和人工智能生成内容 (AIGC). 利用低延迟和隐私保护的优势,在边缘智能环境中提供移动 AI 服务的 PFMs 可为有限的计算资源和 GPU 内存的边缘服务器执行 PFMs 缓存和执行功能,从而实现符合用户需求的有效服务。但 PFMs 通常由数十亿个参数组成,其在加载和执行过程中会产生计算和内存密集型负载。本文研究了元宇宙移动 AIGC 服务的边缘 PFM 服务问题。首先,我们介绍了 PFMs 的基础知识,并讨论了边缘智能中它们的特征微调和推断方法。然后,我们提出了一个新的联合模型缓存和推断框架,以有效管理模型和分配资源以满足用户需求。此外,考虑到 PFMs 的上下文学习能力,我们提出了一个新的指标,用于评估演示和执行任务之间的新鲜度和相关性,即上下文年龄 (AoC)。最后,我们提出了一种最少上下文算法,用于通过平衡延迟、能源消耗和精度之间的权衡来管理边缘服务器上的缓存模型。

2
下载
关闭预览

相关内容

【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
117+阅读 · 2022年4月21日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
120+阅读 · 2020年3月30日
Uber 的服务网格架构设计
InfoQ
1+阅读 · 2022年8月1日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
31+阅读 · 2022年2月15日
VIP会员
相关VIP内容
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
117+阅读 · 2022年4月21日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
120+阅读 · 2020年3月30日
相关资讯
Uber 的服务网格架构设计
InfoQ
1+阅读 · 2022年8月1日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员