This paper presents STARCaster, an identity-aware spatio-temporal video diffusion model that addresses both speech-driven portrait animation and free-viewpoint talking portrait synthesis, given an identity embedding or reference image, within a unified framework. Existing 2D speech-to-video diffusion models depend heavily on reference guidance, leading to limited motion diversity. At the same time, 3D-aware animation typically relies on inversion through pre-trained tri-plane generators, which often leads to imperfect reconstructions and identity drift. We rethink reference- and geometry-based paradigms in two ways. First, we deviate from strict reference conditioning at pre-training by introducing softer identity constraints. Second, we address 3D awareness implicitly within the 2D video domain by leveraging the inherent multi-view nature of video data. STARCaster adopts a compositional approach progressing from ID-aware motion modeling, to audio-visual synchronization via lip reading-based supervision, and finally to novel view animation through temporal-to-spatial adaptation. To overcome the scarcity of 4D audio-visual data, we propose a decoupled learning approach in which view consistency and temporal coherence are trained independently. A self-forcing training scheme enables the model to learn from longer temporal contexts than those generated at inference, mitigating the overly static animations common in existing autoregressive approaches. Comprehensive evaluations demonstrate that STARCaster generalizes effectively across tasks and identities, consistently surpassing prior approaches in different benchmarks.


翻译:本文提出STARCaster,一种身份感知的时空视频扩散模型,在统一框架内,给定身份嵌入或参考图像,同时解决语音驱动的肖像动画和自由视角说话人肖像合成问题。现有的二维语音到视频扩散模型严重依赖参考引导,导致运动多样性受限。同时,三维感知动画通常依赖于通过预训练三平面生成器进行反演,这往往导致重建不完美和身份漂移。我们从两个方面重新思考基于参考和几何的范式。首先,我们通过引入更柔性的身份约束,在预训练阶段偏离严格的参考条件化。其次,我们利用视频数据固有的多视角特性,在二维视频域内隐式地实现三维感知。STARCaster采用一种组合式方法,从身份感知的运动建模开始,通过基于唇读的监督实现视听同步,最后通过时空自适应完成新视角动画生成。为克服四维视听数据的稀缺性,我们提出一种解耦学习方法,其中视角一致性和时间连贯性被独立训练。一种自强制训练方案使模型能够学习比推理时生成长度更长的时序上下文,从而缓解现有自回归方法中常见的过度静态动画问题。综合评估表明,STARCaster能有效泛化到不同任务和身份,在不同基准测试中持续超越先前方法。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员