Text-to-motion generation is an emerging and challenging problem, which aims to synthesize motion with the same semantics as the input text. However, due to the lack of diverse labeled training data, most approaches either limit to specific types of text annotations or require online optimizations to cater to the texts during inference at the cost of efficiency and stability. In this paper, we investigate offline open-vocabulary text-to-motion generation in a zero-shot learning manner that neither requires paired training data nor extra online optimization to adapt for unseen texts. Inspired by the prompt learning in NLP, we pretrain a motion generator that learns to reconstruct the full motion from the masked motion. During inference, instead of changing the motion generator, our method reformulates the input text into a masked motion as the prompt for the motion generator to ``reconstruct'' the motion. In constructing the prompt, the unmasked poses of the prompt are synthesized by a text-to-pose generator. To supervise the optimization of the text-to-pose generator, we propose the first text-pose alignment model for measuring the alignment between texts and 3D poses. And to prevent the pose generator from overfitting to limited training texts, we further propose a novel wordless training mechanism that optimizes the text-to-pose generator without any training texts. The comprehensive experimental results show that our method obtains a significant improvement against the baseline methods. The code is available.


翻译:文本到动作的生成是一个新兴而具有挑战性的问题,旨在合成与输入文本相同语义的动作。然而,由于缺乏多样化的标注训练数据,大多数方法要么局限于特定类型的文本注释,要么需要在线优化,以适应推理过程中的文本,但会导致效率和稳定性降低的问题。在本文中,我们研究用零样本学习的方式离线开放词汇文本到动作生成,不需要有对应的训练数据或额外的在线优化来适应未见过的文本。受NLP中prompt学习的启发,我们预先训练一个动作生成器,该生成器学习从掩蔽的动作中重建全动作。在推理过程中,我们的方法不改变动作生成器,而是将输入文本重构为掩蔽的动作,作为动作生成器“重建”动作的提示。在构建提示时,掩蔽的姿势是由文本到姿势生成器合成的。为了监督文本到姿势生成器的优化,我们提出了第一个文本-姿态对齐模型,用于衡量文本和3D姿态之间的对齐程度。为了防止姿态生成器过度拟合有限的训练文本,我们还提出了一种新颖的无字训练机制,可以在没有任何训练文本的情况下优化文本到姿势生成器。全面的实验结果表明,我们的方法对比基线方法有显著改进。代码可用。

0
下载
关闭预览

相关内容

【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
专知会员服务
41+阅读 · 2021年6月6日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
一文了解prompt learning在计算机视觉领域进展
极市平台
7+阅读 · 2022年11月11日
大佬在线复盘:我在训练 DALL·E 时犯过的错
夕小瑶的卖萌屋
0+阅读 · 2022年7月22日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
相关VIP内容
相关资讯
一文了解prompt learning在计算机视觉领域进展
极市平台
7+阅读 · 2022年11月11日
大佬在线复盘:我在训练 DALL·E 时犯过的错
夕小瑶的卖萌屋
0+阅读 · 2022年7月22日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员