这是两会上最高科技的主播!不会累、不会失误,逼真得不像AI

2020 年 5 月 29 日 THU数据派


来源:量子位

本文约 2333字 ,建议阅读 5分钟
文介绍全球第一个 3D+AI 合成主播“新小微”,在两会召开之际上线,为全国观众带来了最新的两会新闻资讯报道。这个AI合成主播坐姿、站姿零失误播报是基操,而且还是3D,360度取景也hold得住。

什么样的主播水平,可以担当新华社「两会」新闻播报重任?

这个AI合成主播就可以——坐姿、站姿零失误播报是基操,而且还是3D,360度取景也hold得住。

她叫“新小微”,是全球第一个 3D+AI 合成主播,在两会召开之际上线,为全国观众带来了最新的两会新闻资讯报道。

话不多说,先来看下她的业务能力。

举止端庄,神情自然,近距离镜头前大方得体。

360°多角度取景,无死角完美呈现。

走路进场,站姿报道轻松拿下。

这就是搜狗分身最新的技术进展——基于AI算法实现实时驱动,打造高逼真、高灵活、高可控的3D AI合成主播。

“新小微”的诞生过程

我们先近距离观察一下新小微的细节。

可以看到,在超近镜头下,新小微的发丝、睫毛,甚至是毛孔都是清晰可见。

如此“高清”效果,又是如何打造的呢?

首先,是基于真人原型采集海量数据

新小微的真人原型,是新华社记者赵琬微。

赵琬微戴着数据采集头盔,几百个摄像头对其身体各个部位,360度全方位“打点”扫描。

这样做的目的,是采集每一处细节信息,并对其多种形态的表情和动作,进行细致入微地捕捉记录。

采集完数据过后,便是生成高逼真度的3D 数字人模型。

这个过程中,采用了行业领先的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术。

最后,通过狗分身端到端多模态生成算法,对3D数字人模型进行实时文本驱动,也就是说,只要给到一个文本,就能输出一个视频或者视频流。

并确保在此基础之上,渲染后的面部表情唇动、肢体动作和语言表达能力,能够实现高度契合。

和游戏、影视中的3D数字人的区别

“新小微”的诞生,或许会让你联想到我们在游戏、影视中经常看到的3D数字人。

《爵迹》中的角色

然而,“新小微”和这些3D数字人存在两大方面的区别。

首先,3D模型的制作技术不同,带来的逼真效果不同。

很多做写实类型的3D模型,都是采用blendshapp或骨骼动画去完成,做出来的面部表情和身体动作就不是特别逼真。

而搜狗采用的是全球最领先的肌肉模型来完成3D建模,所以每一个肌肉点的运动都会连带着很多面部脸谱协同运动。

从面部表情到肢体动作的细节程度,达到了不亚于,甚至会高于一些影视作品及游戏NPC的写实度。

在高清特写镜头下,3D AI合成主播的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发达到高逼真程度。

并且在AI合成主播讲话的过程中,语音和她的唇动细节之间的配合度,以及她的面部肌肉运动,整体看起来实现了很高的自然度。

同时,在讲话过程中,3D AI合成主播的头动、肩膀、眼神、眨眼等等都非常自然。

其次,是3D数字人驱动方式、成本、效率不同,这一点格外重要。

3D AI合成主播靠AI算法实时驱动,输入一个文本就能输出一个视频或者视频流。

并且其效率极高——若是要生成一个1分钟的视频,输入文本后,生成只需要1分钟,可以说,几乎达到了实时生成的效果。

反观游戏行业及电影行业,大多是靠人工做驱动,才能实现一个高写实的3D模型。这就导致需要投入大量的人力、财力成本。

例如,扫描一个人物,再投入大量的人工采集他讲的每一个字、每一个发音、每一个动作。而后靠美术师自己勾画出来,一点一点地提升写实度。

以这种制作过程,来完成一个小时的3D写实度视频,大约需要花费几千万人民币。

再者,如现在市面上一些比较火的卡通效果,如洛天依,大多都是通过真人采集,没有做到真正意义上的AI驱动

业内类似的3D数字人,还有像今年CES中,三星的NEON.Life项目。

虽然三星的这项技术在面部细节还原方面达到了高逼真度,但是其在整体面部、肢体的协调性等方面还是具有一定的缺陷。

可以看到,三星NEON.Life项目中的数字人,在说话的过程中,只有面部肌肉在动,而身体是一直保持一个动作不变。

而在刚才的展示中,“新小微”从进场到站姿播报,表情、唇动、语言、肢体动作,都是一气呵成、自然协调。

再来看一个细节。

这个3D人在完成扭头动作时,由于脖子、肩膀不能完成“联动”,所以效果上会比较“诡异”。

而在游戏、影视,甚至是同行3D数字人中存在的缺陷,搜狗通过开创性的AI技术,将其逐一攻克。

不是迭代,而是两条赛道并行走

说搜狗是AI合成主播的开创者,一点也不足为过。

其实,早在2018年开始,便采用搜狗分身技术,联合新华社发布全球首个AI合成主播

真人?AI?傻傻分不清。

但需要强调的一点是,搜狗的3D AI合成主播,并不是基于此前2D合成主播的升级、迭代。

而是两条赛道并行走

2D的AI合成主播技术已经在许多场景中落地,例如新闻主播“雅妮”、“AI虚拟法官”,以及虚拟审核客服等等。

而随着数字人这一概念的兴起,搜狗基于已有的AI技术,与3D技术相结合,便推出了此次的3D AI合成主播。

二者是处于“搜狗分身”体系下的并行发展路线,正如在量子位采访过程中,搜狗AI交互技术部总经理陈伟表示:

2D的写实度比3D略高一些,但是3D的灵活性更高一点。

基于路线探讨,我们还是区分了2D和3D,同时在底层算法上也做了充分的打通。

搜狗分身的下一步

从2D的AI分身,到现在3D的进化,背后不仅是技术、产品在场景落地上的不断探索和精益求精。

也是搜狗在其AI战略执行线上的不断推进。

众所周知,自2016年以来,搜狗就确定了以语言为核心的自然交互+知识计算路线,而AI分身类产品,核心发展目标就是打造像人一样的自然交互,并且拥有强大的知识计算能力。

2D和3D的AI合成主播,正在从“表达式”向“交互式”发展,这背后要基于强大的知识理解和计算能力。

这也是全球目前及下一阶段最前沿的“数字人”的核心技术竞争力所在。

相比三星在CES上的Demo展出,搜狗已将AI合成主播实现了重要场合、重要岗位和重要任务场景上的商用。

这既是产品成熟度的自信,也是背后的技术自信。

或许要不了多久,真正的“数字人”,将不再局限于数字世界。

你期待吗?

——END——


登录查看更多
0

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
AI换脸朱茵变杨幂,技术背后细思极恐
大数据技术
7+阅读 · 2019年3月1日
“万人迷”小冰背后的AI故事
AI100
6+阅读 · 2019年1月13日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
深度相机应用全面梳理:多点开花,定点爆破
计算机视觉life
6+阅读 · 2017年12月13日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
AI换脸朱茵变杨幂,技术背后细思极恐
大数据技术
7+阅读 · 2019年3月1日
“万人迷”小冰背后的AI故事
AI100
6+阅读 · 2019年1月13日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
深度相机应用全面梳理:多点开花,定点爆破
计算机视觉life
6+阅读 · 2017年12月13日
相关论文
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
4+阅读 · 2015年8月25日
Top
微信扫码咨询专知VIP会员