尽管文本到视频(T2V)生成技术已经取得了进展,制作具有真实运动的视频仍然具有挑战性。当前模型通常产生静态或动态变化极少的输出,未能捕捉文本中描述的复杂运动。这个问题源于文本编码中的内部偏差,这些偏差忽视了运动,并且T2V生成模型的条件机制不足。为了解决这个问题,我们提出了一种新颖的框架,称为分解运动(DEMO),该框架通过将文本编码和条件控制分解为内容和运动组件来增强T2V生成中的运动合成。我们的方法包括一个用于静态元素的内容编码器和一个用于时间动态的运动编码器,以及单独的内容和运动条件控制机制。关键是,我们引入了文本-运动和视频-运动的监督,以提高模型对运动的理解和生成能力。在MSR-VTT、UCF-101、WebVid-10M、EvalCrafter和VBench等基准测试中的评估表明,DEMO在生成具有增强运动动态的视频方面表现优越,同时保持高视觉质量。我们的方法通过直接从文本描述中整合全面的运动理解,显著推动了T2V生成的进展。项目页面:https://PR-Ryan.github.io/DEMO-project/

成为VIP会员查看完整内容
14

相关内容

【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
6+阅读 · 2024年5月28日
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
28+阅读 · 2022年1月24日
专知会员服务
23+阅读 · 2021年9月27日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
1+阅读 · 2024年12月13日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
6+阅读 · 2024年5月28日
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
28+阅读 · 2022年1月24日
专知会员服务
23+阅读 · 2021年9月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员