【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》 - 专知VIP

会员服务 ·

5

CVPR 2025 · VideoMage · 扩散模型 · 文本到视频生成 ·

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

定制化文本到视频生成技术旨在根据用户指定的主体身份或运动模式生成高质量视频。然而，现有方法主要局限于对单一概念（主体身份或运动模式）进行个性化定制，难以同时处理具有特定运动模式的多个主体。为应对这一挑战，我们提出统一框架VideoMage，实现对多主体及其交互运动的联合定制。VideoMage的创新包括：

双模态适配器：

采用主体LoRA与运动LoRA，分别从用户提供的图像/视频中提取个性化内容 * 通过外观无关的运动学习技术，解耦运动模式与视觉外观特征 1. 时空组合机制：

设计新型空间-时间引导方案，精确控制多主体在目标运动模式下的交互行为

实验表明，VideoMage显著优于现有方法，能生成主体身份一致、运动交互可控且时序连贯的视频。 项目主页：https://jasper0314-huang.github.io/videomage-customization

成为VIP会员查看完整内容

8

相关内容

CVPR 2025

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

专知会员服务

11+阅读 · 3月7日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2月27日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

【NeurIPS2024】Text2CAD：从初学者到专家级文本提示生成连续CAD模型

【NeurIPS2024】Text2CAD：从初学者到专家级文本提示生成连续CAD模型

专知会员服务

20+阅读 · 2024年9月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

20+阅读 · 2024年3月30日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

187+阅读 · 2024年1月9日

【普林斯顿】基于大型语言模型的语言智能体认知架构

【普林斯顿】基于大型语言模型的语言智能体认知架构

专知会员服务

71+阅读 · 2023年9月6日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【2022新书】分布式机器学习Python实战，284页pdf

【2022新书】分布式机器学习Python实战，284页pdf

专知

14+阅读 · 2022年6月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

48+阅读 · 2022年4月25日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

37+阅读 · 2022年3月18日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

23+阅读 · 2022年1月20日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

人工智能前沿讲习班

17+阅读 · 2018年9月25日

基于AOI的大规模三维虚拟场景流式传输机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向汽车造型的产品设计DNA本体建模与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

78+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

447+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

138+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

75+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

163+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

文本到视频生成

相关VIP内容

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

【CVPR2025】FluidNexus: 基于单个视频的三维流体重建与预测

专知会员服务

11+阅读 · 3月7日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2月27日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

【NeurIPS2024】Text2CAD：从初学者到专家级文本提示生成连续CAD模型

【NeurIPS2024】Text2CAD：从初学者到专家级文本提示生成连续CAD模型

专知会员服务

20+阅读 · 2024年9月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

20+阅读 · 2024年3月30日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

187+阅读 · 2024年1月9日

【普林斯顿】基于大型语言模型的语言智能体认知架构

【普林斯顿】基于大型语言模型的语言智能体认知架构

专知会员服务

71+阅读 · 2023年9月6日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国的"铁穹"计划》

水下无人通信载荷技术综述与应用前景

特朗普"美国金穹"计划背景解析

美智库《软件定义战争》最新36页报告

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【2022新书】分布式机器学习Python实战，284页pdf

【2022新书】分布式机器学习Python实战，284页pdf

专知

14+阅读 · 2022年6月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

48+阅读 · 2022年4月25日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

37+阅读 · 2022年3月18日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

23+阅读 · 2022年1月20日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

人工智能前沿讲习班

17+阅读 · 2018年9月25日

相关基金

基于AOI的大规模三维虚拟场景流式传输机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向汽车造型的产品设计DNA本体建模与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

78+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

447+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

138+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

75+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

163+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员