你说话时的肢体动作，AI仅凭声音就能预测

会员服务 ·

你说话时的肢体动作，AI仅凭声音就能预测 | CVPR 2019

2019 年 6 月 22 日 新智元

新智元报道

来源：arXiv、Science

编辑：肖琴

【新智元导读】来自UC Berkeley和MIT的研究人员开发了一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅，本文带来技术解读。

人在说话的时候，常常伴随着身体动作，不管是像睁大眼睛这样细微的动作，还是像手舞足蹈这样夸张的动作。

最近，来自UC Berkeley和MIT的研究人员开发了一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称，只需要音频语音输入，AI就能生成与声音一致的手势。具体来说，他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频，其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法，这样AI就可以根据说话者的新音频来预测手势。

图1：从语音到手势的转换的示例结果。由下往上：输入音频、由我们的模型预测的手臂和手的姿态，以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示，在定量比较中，生成的手势比从同一说话者者随机选择的手势更接近现实，也比从一种不同类型的算法预测的手势更接近现实。

图2：特定于说话者的手势数据集

说话者的手势也是独特的，对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中，可以生成半真实的视频。

请看下面的demo视频：

研究团队表示，他们的下一步是不仅根据声音，还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人，或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究，他们还发布了一个大型的个人特定手势视频数据集。

方法详解：两阶段从语音预测视频

给定原始语音，我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先，由于我们用于训练的唯一信号是相应的音频和姿势检测序列，因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次，为了避免回归到所有可能的手势模式的平均值，我们使用了一个对抗性鉴别器，以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性，该编码考虑了输入语音的完整时间范围s，并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的，如图3所示。

图3：语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后，平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号，而一个对抗性辨别器D则确保预测的动作既具有时间一致性，又符合说话者的风格。

我们使用UNet架构进行转换，因为它的bottleneck为网络提供了过去和未来的时间上下文，而skip connections允许高频时间信息通过，从而能够预测快速移动。

定量和定性结果

图4：我们训练过的模型是特定于人的。对于每个说话者的音频输入(行)，我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行，对角线上的项都是颜色最浅的，因为模型使用训练对象的输入语音效果最好。

表1：在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5：语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

项目：

http://people.eecs.berkeley.edu/~shiry/projects/speech2gesture/

论文：

https://arxiv.org/pdf/1906.04160.pdf

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

图像分区域合成，这个新方法实现了人脸的「精准整容」

机器之心

6+阅读 · 2019年12月16日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

用AI实现动画角色的姿势迁移，Adobe等提出新型「木偶动画」

机器学习算法与Python学习

7+阅读 · 2019年10月13日

从十篇热门学术论文看计算机视觉的未来

计算机视觉life

6+阅读 · 2019年9月11日

解码大脑信号直接合成语音，Nature新研究拯救失语者

机器之心

3+阅读 · 2019年4月25日

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Arxiv

8+阅读 · 2020年4月13日

Object Hallucination in Image Captioning

Arxiv

3+阅读 · 2019年3月29日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Japanese Predicate Conjugation for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

VIP会员