成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
搜狗联合清华天工研究院推出ChoreoNet模型:让数字人随着音乐翩翩起舞
2020 年 8 月 23 日
新智元
新智元报道
来源:脑极体
编辑:白峰
【新智元导读】
声音与AI行为搭配在一起,会发生怎样的化学反应呢?搜狗及清华天工院研究团队最近提出了一个模仿人类舞蹈编排的程序ChoreoNet,让闻声起舞成为现实。
声音与AI行为搭配在一起,会发生怎样的化学反应呢?这一话题,正在成为国内外AI研究比较热衷的新方向。
比如卡内基·梅隆大学和CMU机器人研究所,就在研究声音和机器人动作之间的相互作用;国内则从数字人入手,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队,率先展开了音频驱动身体动作的研究。
近日二者共同发表的数字人技术论文《ChoreoNet: 基于舞蹈动作单元的音乐-舞蹈合成框架》,就被2020国际顶级盛会ACM Multimedia录用为长文。
作为计算机领域诺贝尔奖——图灵奖的评选机构,ACM(国际计算机学会Association for Computing Machinery)的业界地位不用赘述,旗下的ACM Multimedia也被认为是多媒体技术领域奥运级别的顶级盛会,论文接受率很低。
那么,能得到顶会的认可,这一新技术究竟有哪些开创性呢?
闻声起舞,「乐舞合成」是怎样实现的?
让数字人根据文本语义做出相对应的面部表情及肢体动作,目前已经有不少成熟的应用,比如AI合成主播。如果再能够跟随音频做出同步、自然的肢体反应,无疑会在多种场景中产生奇妙的化学反应。
不过,随声而动这件事的难度在于,背后需要解决的技术问题不少,比如:
传统音乐与舞蹈合成的方式是基线法,通过人体骨骼关键点的映射,但许多关键点难以捕捉和预测,就会出现高度冗余和噪声,导致合成结果的不稳定、动作节衔接不像真人
。
后来,雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题,但由于缺乏对人类舞蹈经验知识的了解,依然会出现合成不够自然、情感表达不够流畅的问题。
另外,由于音乐片段比较长,背后伴随着成千上万的动作画面,需要智能体记住并映射这种超长的序列也是一大挑战。
搜狗及清华天工院研究团队所做的突破,就是
将人类专业知识融入算法,提出了一个模仿人类舞蹈编排的程序ChoreoNet,来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈
。
简单来说,ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化,然后让AI在其中寻找规律,知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作,进而形成连贯的动作轨迹。
其中,研究人员共突破了两个环节:
1.
舞蹈知识化
。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了4种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据,数个音乐节拍裁剪出一个编舞动作单元(CAUs) 相对应的片段,形成一个动作控制单元(CA),形成一个音乐与动作的映射序列。
2.之前采集的舞蹈动作只是人体骨骼关键点数据,怎样让它们之间的连续过渡更加自然呢?研究人员
借助NLP语义理解,让AI可以根据积累的知识进行实时反应
。利用GAN设计了一个运动生成模型,让AI可以绘制一些舞蹈动作,补上缺失的数据,从而实现舞蹈的平滑过渡,产生自然的效果。
实验结果证明,
与基线法相比,ChoreoNet性能更好
,可以生成持续时间较长的结构化控件,来生成与音乐匹配的动作,并使其自然连接、情感流畅。
在这一突破中,搜狗对音频驱动身体动作这一课题的敏锐感知,以及AI分身技术在身体动作及姿态生成方面的加成,无疑是领先技术能力与创新意识的绝佳组合。
持续领跑,搜狗与分身技术的不解之缘
可以看到,ChoreoNet的出现,既带来了人机交互能力的提升,也给机器学习融入了知识元素。这可以看做是搜狗“分身技术”的一次进阶,也侧面印证了搜狗以“自然交互+知识计算”为核心的AI技术版图,正在持续狂奔,也得以积蓄起不断引领技术方向的势能。
从2018年首创分身技术之后,搜狗的研发脚步从未停止,持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。
如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。
在对数字人的面部驱动达到较高标准后,搜狗将研究重点从面部为主的驱动转到面部+动作的驱动,
重点攻关如何让肢体动作更具自然表现力
。如在今年5月推出的3D AI合成主播身上,不仅有经得起高清镜头考验的面部表现,同时实现了以文本语义为驱动的自如行走。
如今,ChoreoNet更进一步,实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动,更是一改只能由文本、语义驱动AI分身面部+动作的现状,为行业带来了更多的创新可能,搜狗的分身技术理想与实力也跃然纸上。
不断打造可视化、能自然交互的AI数字人,搜狗到底想做什么?
人机交互的未来,与搜狗的技术远景
回归到企业战略层面,搜狗的AI理念是让AI赋能于人。通过人机协作,把人从重复性工作中解放出来,更好地解放社会生产力。比如AI主播,就可以让主持人不再困于朗读既定内容,可以投身于更具创造性的工作。当然,这一切都要从更自然的人机交互开始,完成一次次交流与触碰。
而此次ChoreoNet让数字人跟随音乐起舞,这个创意的突破不仅仅是技术上够炫酷,应用空间也非常巨大。
不出意外,搜狗很大可能会将该技术同3D数字人相结合,因为相较2D数字人,3D数字人的肢体灵活性、可塑性驱动更强,从而有更广泛的应用空间。音频驱动技术的加入,不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景,更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。
可以看到,
基于视觉的人机交互会越来越成为主流
,比如当前流行的智能客服、虚拟偶像等等,往往需要大量文本、语义的输入来进行推理与交互,虚拟偶像的动作也需要捕捉后由人工逐帧进行制作,而改为音频驱动可以更为直接地实现语音交流,节省制作/计算的步骤与成本。
此外,人类知识体系与机器学习的结合,让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习,从而提供更精准、可靠的服务,大大提升AI客服的接受度。
当然,音频驱动也可以生成更具人性化的个人秘书,帮助人减轻工作负担、提高效率的同时,通过音频识别与判断来实时反应,表现力更加丰富,让智能家居、服务机器人等更好地融入生活环境,在老人关怀、私人助理、儿童陪伴等等场景之中,扮演更积极的角色。
业内有个共识,一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目,才会被ACM Multimedia通过和录取。从这个角度看,搜狗与清华天工院所做的工作,远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候,搜狗已经向前迈出了让人眼前一亮的步伐。
让数字人更像人,就能更早地与人类达成亲密无间的配合与协作,对于人类和AI来说,同样重要。也正由于此,世界顶级盛会才会投注认可与鼓励。下一次,搜狗会为数字人集齐怎样的能力呢?我们拭目以待。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
搜狗
关注
1
搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉,已经成为中国互联网的创新典范,也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用,其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日,在引入阿里巴巴集团和云峰基金等战略投资者之后,搜狗从搜狐分拆,成为独立运营的公司,王小川出任搜狗首席执行官。
【ECCV2020】 自动化所&QMUL联合发布 light-reid:首个轻量化行人重识别开源工具箱!
专知会员服务
15+阅读 · 2020年8月28日
【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】
专知会员服务
25+阅读 · 2020年8月6日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【新书】图神经网络导论,清华大学刘知远老师著作
专知会员服务
361+阅读 · 2020年6月12日
「强化学习之路」清华博士后解读83篇文献,万字长文总结
专知会员服务
65+阅读 · 2020年2月28日
[WWW2020-腾讯QQ看点团队]未来上下文建模会话推荐,Modeling Future Contexts
专知会员服务
35+阅读 · 2020年2月21日
AAAI 2020最佳论文公布,华盛顿大学、AllenAI、NTU、清华、港大等斩获
专知会员服务
50+阅读 · 2020年2月8日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【博士论文】 音乐结构的人工神经网络建模 :Modeling Musical Structure with Artificial Neural Networks
专知会员服务
27+阅读 · 2019年11月26日
【CCL 2019】特邀报告,语言与视觉多模态智能的进展,京东AI研究院常务副院长何晓冬
专知会员服务
48+阅读 · 2019年11月11日
用AI实现动画角色的姿势迁移,Adobe等提出新型「木偶动画」
机器之心
7+阅读 · 2019年10月12日
Interspeech 2019 | 阿里达摩院语音实验室:联合CTC和Transformer的自动中文纠错模型
机器之心
26+阅读 · 2019年9月15日
【学界】造假AI又进化!只要一张照片,说话唱歌视频自动生成,降维打击Deepfakes丨已开源
GAN生成式对抗网络
12+阅读 · 2019年6月24日
照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象
量子位
4+阅读 · 2019年3月20日
对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络
数据派THU
5+阅读 · 2019年2月11日
清华出品 | 人脸识别最全知识图谱
THU数据派
17+阅读 · 2018年11月8日
人脸识别最全知识图谱—清华大学出品
人工智能学家
10+阅读 · 2018年10月28日
总结 | 清华大学韩旭:神经关系抽取模型
AI科技评论
8+阅读 · 2018年9月28日
打造AI证券助理,竹间为兴业证券带来的不仅是客服
未来产业促进会
5+阅读 · 2017年12月26日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
Arxiv
3+阅读 · 2020年4月6日
Revisiting Graph Neural Networks: All We Have is Low-Pass Filters
Arxiv
7+阅读 · 2019年5月23日
Memory-Attended Recurrent Network for Video Captioning
Arxiv
7+阅读 · 2019年5月10日
Investigating the Successes and Failures of BERT for Passage Re-Ranking
Arxiv
3+阅读 · 2019年5月5日
Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures
Arxiv
3+阅读 · 2018年8月27日
Learning to Update for Object Tracking
Arxiv
8+阅读 · 2018年6月19日
Density-Adaptive Kernel based Re-Ranking for Person Re-Identification
Arxiv
4+阅读 · 2018年5月20日
Knowledge-based Recurrent Attentive Neural Network for Small Object Detection
Arxiv
3+阅读 · 2018年5月2日
Self-Attentive Residual Decoder for Neural Machine Translation
Arxiv
5+阅读 · 2018年3月22日
AlignedReID: Surpassing Human-Level Performance in Person Re-Identification
Arxiv
7+阅读 · 2018年1月31日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
搜狗
ACM Multimedia
音乐
ACM
卡内基·梅隆大学
AI
相关VIP内容
【ECCV2020】 自动化所&QMUL联合发布 light-reid:首个轻量化行人重识别开源工具箱!
专知会员服务
15+阅读 · 2020年8月28日
【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】
专知会员服务
25+阅读 · 2020年8月6日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【新书】图神经网络导论,清华大学刘知远老师著作
专知会员服务
361+阅读 · 2020年6月12日
「强化学习之路」清华博士后解读83篇文献,万字长文总结
专知会员服务
65+阅读 · 2020年2月28日
[WWW2020-腾讯QQ看点团队]未来上下文建模会话推荐,Modeling Future Contexts
专知会员服务
35+阅读 · 2020年2月21日
AAAI 2020最佳论文公布,华盛顿大学、AllenAI、NTU、清华、港大等斩获
专知会员服务
50+阅读 · 2020年2月8日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【博士论文】 音乐结构的人工神经网络建模 :Modeling Musical Structure with Artificial Neural Networks
专知会员服务
27+阅读 · 2019年11月26日
【CCL 2019】特邀报告,语言与视觉多模态智能的进展,京东AI研究院常务副院长何晓冬
专知会员服务
48+阅读 · 2019年11月11日
热门VIP内容
开通专知VIP会员 享更多权益服务
《支持 ML/AI 的下一代智能自主网络系统:性能提升与管理》177页
《飞行训练指导:夜间熟悉》152页
数据:联合作战的新弹药
《混合现实飞行模拟器中的夜视镜仿真:无缝集成真实世界》最新54页
相关资讯
用AI实现动画角色的姿势迁移,Adobe等提出新型「木偶动画」
机器之心
7+阅读 · 2019年10月12日
Interspeech 2019 | 阿里达摩院语音实验室:联合CTC和Transformer的自动中文纠错模型
机器之心
26+阅读 · 2019年9月15日
【学界】造假AI又进化!只要一张照片,说话唱歌视频自动生成,降维打击Deepfakes丨已开源
GAN生成式对抗网络
12+阅读 · 2019年6月24日
照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象
量子位
4+阅读 · 2019年3月20日
对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络
数据派THU
5+阅读 · 2019年2月11日
清华出品 | 人脸识别最全知识图谱
THU数据派
17+阅读 · 2018年11月8日
人脸识别最全知识图谱—清华大学出品
人工智能学家
10+阅读 · 2018年10月28日
总结 | 清华大学韩旭:神经关系抽取模型
AI科技评论
8+阅读 · 2018年9月28日
打造AI证券助理,竹间为兴业证券带来的不仅是客服
未来产业促进会
5+阅读 · 2017年12月26日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
相关论文
WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
Arxiv
3+阅读 · 2020年4月6日
Revisiting Graph Neural Networks: All We Have is Low-Pass Filters
Arxiv
7+阅读 · 2019年5月23日
Memory-Attended Recurrent Network for Video Captioning
Arxiv
7+阅读 · 2019年5月10日
Investigating the Successes and Failures of BERT for Passage Re-Ranking
Arxiv
3+阅读 · 2019年5月5日
Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures
Arxiv
3+阅读 · 2018年8月27日
Learning to Update for Object Tracking
Arxiv
8+阅读 · 2018年6月19日
Density-Adaptive Kernel based Re-Ranking for Person Re-Identification
Arxiv
4+阅读 · 2018年5月20日
Knowledge-based Recurrent Attentive Neural Network for Small Object Detection
Arxiv
3+阅读 · 2018年5月2日
Self-Attentive Residual Decoder for Neural Machine Translation
Arxiv
5+阅读 · 2018年3月22日
AlignedReID: Surpassing Human-Level Performance in Person Re-Identification
Arxiv
7+阅读 · 2018年1月31日
大家都在搜
大模型
笛卡尔
大型语言模型
自主系统
ETHZ博士论文
智能推荐
palantir
MoE
壁画
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top