一上台就紧张?这个模型帮你生成演讲「替身」,肢体语言比总统候选人还丰富

2020 年 7 月 13 日 机器之心


机器之心报道

参与:杜伟、魔王

只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了!


你能看出上图中的人物姿势是仅基于一段语音生成的吗?

基于语音生成上半身动作甚至全身姿势,并实现速度、对称度等高级的姿势控制,瑞典皇家理工学院的一项研究做到了。

该研究提出的方法不仅能够基于语音合成对应的姿势,还可以为同样的语音生成不同的姿势:

上面这两组姿势竟然表达的是同一段话?

仅仅这样还不够,该方法还提供高级的风格控制,比如速度:


左右方姿势的对称度:


说话时姿势动作的半径范围,动作幅度的大小尽在掌控:


甚至还能控制一侧手臂的高度位置:


此外,该方法还可以生成全身的姿势动态,包括站姿的变化和脚步的移动:


具体效果参见视频:


Demo 展示的效果征服了一批 reddit 网友。他们表示,如果能将这个技术用在游戏(如《无人深空》)或 VR 产业,那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作,这可以大大降低游戏的开发成本,也能让对话情境下的 VR 人物更加逼真。


那么,如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节。

只用语音生成人物姿势

逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中,新工具可以将动画师的角色转变为导演,他只需为期望的动画效果提供高级输入即可。之后,学得的网络将这些指令转换为适当的身体姿势序列。在交互场景中,实时生成自然动画的系统是塑造可信和关联角色的关键所在。

瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进,提出了一种新的生成模型,该模型可实现当前最优的语音驱动姿势生成。

得益于该方法的概率属性,在给定相同输入语音信号的情况下,该模型可以生成多个不同且合理的姿势,实现动作的自然变化。


  • 论文主页:https://diglib.eg.org/handle/10.1111/cgf13946

  • 项目地址:https://github.com/simonalexanderson/StyleGestures


研究者还展示了该模型对输出风格施加指引性控制的能力,如姿势高度、速度、对称度和空间活动范围。这类控制可用来传达期望角色的个性或情绪。研究者在未对数据做任何手动标注的情况下,实现了以上功能。

在实验部分,用户研究表明,该方法生成的上半身姿势动作自然,并且与输入语音非常匹配。该方法的评分高于先前所有的此类系统和基线方法,并且接近原始记录动作的评分。

研究者进一步发现,该方法可以在不损失动作的感知自然度的情况下,准确地控制姿势风格。

最后,研究者展示了该方法同样适用于行走和站立等全身姿态的动作合成。

接下来,我们来看该模型的实现原理和具体效果。

实现原理

该研究提出的概率生成模型基于近期关于归一化流的工作构建,尤其是 MoGlow [HAB19]。该模型可在大型非结构化运动数据集上进行训练,且数据无需手动标注。

与直接基于语音合成动作的方法不同,该模型的训练过程中将语音作为输入,建模动作的条件概率分布。这样就可以基于概率分布采样新的姿势,从而每一次都可以生成不同却合理的姿势。这与人类行为一致,并且可以为虚拟智能体和动画行业提供不错的应用优势。

该方法的优势包括:

  • 数据集无需手动标注;

  • 具备不确定性(因而可以得到无限种类的姿势变体);

  • 能够输出全身姿势。


具体而言,在实现语音驱动姿势合成的过程中,研究者使用了归一化流(normalising flow)。完整的动作生成流程如下图 1 所示:


该模型的思路是在使用归一化流的姿势序列    稳定自回归模型中,学习姿势 X 的多维下一步(next-step)分布。归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理(概率计算)以及高效的分布采样。

整体转换和中间结果表示如下:


此外,归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式(Jacobian determinant)的 f_n 变换参数族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部图像上实现了显著的效果。之后,又出现了改进版 MoGlow。

MoGlow 专注于零算法延迟的运动控制,并不非常适合语音驱动姿势合成任务。与语音同时出现的人体姿势可以分割为准备、执行(stroke)和撤回三个阶段。

基于此,该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征 的视窗(window),从而将足够的未来信息考虑在内。完整的动作生成流程如上图 1 所示。

实现效果如何

在所有实验中,评分者需要观看和聆听人体姿势的 18 秒视频片段(如下图所示),并根据给定的评分标准进行打分(5 分制)。


人体相似性和适当性评估

下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分:


风格控制评估

下图 4 展示了风格控制对系统生成动作的影响,其中每一行表示不同的风格控制系统(分别是 M-H、MG-V、MG-R 和 MG-S)。


全身姿势评估

评估结果如上图 3 中最右侧图,全身 GT 平均得分为 4.005,FB-C 平均得分为 3.764,FB-U 平均得分为 3.421。

全身姿态的人体相似性评估结果。

缺陷

这项研究在 reddit 上引起了广泛关注和讨论。除了对模型效果表示赞叹以外,也有网友发现了其中需要改进的地方。

例如,有网友指出:「这个模型可以恰当地对节奏和语音强度做出反应,但它似乎并不怎么关注真实的语音信息内容。」

对此,作者之一 Gustav Eje Henter 表示同意:

你说的对!这个模型仅倾听语音(没有文本输入),但并不包含任何人类语言模型。我认为,使用这类模型生成具备语义意义的姿势(尤其还要与语音节奏保持一致)仍是一个未解难题。

该网友还提出了数据问题:「要想使模型达到合理的效果,可能需要大规模数据集。」

对于,Henter 也表示认同:

数据是目前的主要瓶颈。该模型基于同一个人的大约四小时的姿势和语音数据。我们很难找到足够的高质量语音和动作平行数据。一些研究者使用 TED 演讲,但是从此类视频中提取的姿势动作看起来不具备说服力,不够自然。(好的运动数据需要运动捕捉设置和仔细的数据处理。)因此,该研究目前使用的是较小型的高质量数据集。


参考链接:
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/


7 月 14 日 20:00,我们将进行  IC M L 2 020 线上分享的第一期。我们邀请到了普林斯顿大学在读博士生 DiJia Su 为我们分享 他们今年被接收的最新论文: 《ConQUR: Mitigating Delusional Bias in Deep Q-learning》。

识别图中二维码,添加机器之心小助手邀请备注「ICML」,邀请进群。

登录查看更多
0

相关内容

皇家理工学院(英文:KTH Royal Institute of Technology;瑞典文:Kungliga tekniska högskolan,简称:KTH)成立于1827年,坐落于瑞典王国首都斯德哥尔摩,是瑞典国内规模最大、历史最悠久的理工院校,为北欧五校联盟成员之一。KTH强大的研究声誉巩固了该校作为欧洲最著名的技术大学之一的地位,与欧洲大陆其他理工院校一样,不设置综合院校的文、法、医等学院,只专注于工程与技术领域的人才培养与科学研究。 官网:www.kth.se/
【ECCV2020-Oral-谷歌】对抗生成语法的人体活动预测
专知会员服务
4+阅读 · 2020年8月12日
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
还在脑补画面?这款GAN能把故事画出来
机器之心
5+阅读 · 2019年7月6日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员