Text-based 3D motion generation aims to automatically synthesize diverse motions from natural-language descriptions to extend user creativity, whereas motion editing modifies an existing motion sequence in response to text while preserving its overall structure. Pose-code-based frameworks such as CoMo map quantifiable pose attributes into discrete pose codes that support interpretable motion control, but their frame-wise representation struggles to capture subtle temporal dynamics and high-frequency details, often degrading reconstruction fidelity and local controllability. To address this limitation, we introduce pose-guided residual refinement for motion (PGR$^2$M), a hybrid representation that augments interpretable pose codes with residual codes learned via residual vector quantization (RVQ). A pose-guided RVQ tokenizer decomposes motion into pose latents that encode coarse global structure and residual latents that model fine-grained temporal variations. Residual dropout further discourages over-reliance on residuals, preserving the semantic alignment and editability of the pose codes. On top of this tokenizer, a base Transformer autoregressively predicts pose codes from text, and a refine Transformer predicts residual codes conditioned on text, pose codes, and quantization stage. Experiments on HumanML3D and KIT-ML show that PGR$^2$M improves Fréchet inception distance and reconstruction metrics for both generation and editing compared with CoMo and recent diffusion- and tokenization-based baselines, while user studies confirm that it enables intuitive, structure-preserving motion edits.


翻译:基于文本的3D动作生成旨在根据自然语言描述自动合成多样化的动作,以扩展用户的创造力;而动作编辑则是在保持整体结构的前提下,根据文本修改现有动作序列。基于姿态编码的框架(如CoMo)将可量化的姿态属性映射为离散的姿态编码,支持可解释的动作控制,但其逐帧表示难以捕捉细微的时间动态和高频细节,通常会降低重建保真度和局部可控性。为解决这一局限,我们提出了用于动作的姿态引导残差精化(PGR$^2$M),这是一种混合表示方法,通过残差向量量化(RVQ)学习到的残差编码来增强可解释的姿态编码。一个姿态引导的RVQ分词器将动作分解为编码粗略全局结构的姿态潜在变量和建模细粒度时间变化的残差潜在变量。残差丢弃进一步抑制了对残差的过度依赖,保持了姿态编码的语义对齐和可编辑性。在此分词器之上,一个基础Transformer自回归地根据文本预测姿态编码,而一个精化Transformer则在文本、姿态编码和量化阶段的条件下预测残差编码。在HumanML3D和KIT-ML数据集上的实验表明,与CoMo以及近期的基于扩散和分词化的基线方法相比,PGR$^2$M在生成和编辑任务上均改善了Fréchet起始距离和重建指标,同时用户研究证实其能够实现直观且保持结构的动作编辑。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员