CMU发布新型“翻译机”，通过JL2P将文字翻译成肢体运动

会员服务 ·

CMU发布新型“翻译机”，通过JL2P将文字翻译成肢体运动

2019 年 9 月 23 日 全球人工智能

大数据文摘出品编译：Vicky、刘俊寰

如何在文字与运动之间建立起相关联系？

当文字是动词时这样的联系就显得简单，只需做出相应动作即可，比如对家里的狗子说“坐”，如果它听话，整个动作流程就算是完成了。

但是如果是更复杂的文字呢，比如名词，甚至是句子？

近日，卡耐基·梅隆大学（CMU）的AI研究人员发明了能将文字转化成肢体运动的人工智能代理（AI agent），这个方法被称为联合语言姿势（Joint Language-to-Pose，JL2P），通过JL2P能够将自然语言与3D姿势模型相结合。

目前限于简笔画，但发展潜力巨大

JL2P与之前将文字转化为图像的部分作品相一致，比如微软的ObjGAN能从字幕中勾勒出图像和故事板，迪斯尼的AI能用脚本中的文字来创建故事板，英伟达（Nvidia）的GauGAN允许用户用标有“树”、“山”或“天空”这样单词的画笔描绘风景。

微软ObjGAN相关链接：

https://venturebeat.com/2019/06/17/microsoft-researchers-use-gans-to-generate-images-and-storyboards-from-captions/

迪斯尼AI相关链接：

https://venturebeat.com/2019/04/12/disneys-ai-generates-storyboard-animations-from-screenplays/

英伟达GauGAN相关链接：

https://venturebeat.com/2019/03/18/nvidia-researchers-debut-gaugan-ai-that-creates-fake-landscapes-that-look-real/

JL2P是通过端到端的课程学习进行训练的，这种方法强调更短的任务完成顺序，然后才去实现更难的目标。

JL2P动画目前仅限于简笔画，但将文字转换为类人运动的能力有朝一日可以帮助类人型机器人在现实世界中执行物理任务，或是协助创作人员为视频游戏或电影等制作动画虚拟角色。

JL2P使用KIT运动语言数据集进行训练

JL2P能够执行诸如走路或跑步、演奏乐器（如吉他或小提琴）、遵循方向指示（向左或向右）、或控制速度（快或慢）等操作。该项工作最初于7月2日在arXiv.org上的一篇论文中进行了详细介绍，在9月19日于魁北克举行的3D视觉国际会议上由合著者和CMU语言技术研究所的研究员Chaitanya Ahuja进行了展示。

论文链接：

https://arxiv.org/abs/1907.01108

论文写道：“我们首先优化模型，来预测以完整句子为条件的2个时间步长。这项简单的任务有助于模型学习非常短的姿势序列，例如行走时的腿部动作、挥手时的手部动作和弯曲时的躯干动作。一旦验证集的损失开始增加，我们就进入课程的下一阶段。现在，该模型的预测姿势数是‘姿势数量’的两倍。”

JL2P声称，与SRI国际研究人员在2018年提出的最先进的人工智能相比，在人体运动建模方面有了9%的改进。