你看到的可能是假的奥巴马?没错,还真是假的!

2017 年 7 月 28 日 大数据文摘 大数据文摘

大数据文摘作品,转载要求见文末

编译 |  康璐、大力、钱天培

想象生日当天,你收到了一份神秘礼物:你的朋友请奥巴马给你录了一段生日祝福视频——嘴型和声音完全对得上,肢体动作也相当协调。奥巴马说着你的名字、你的故事,为你许愿,看得你泪眼朦胧:“原来我的小伙伴是个隐形土豪!”这样的场景是否十分梦幻呢?

华盛顿大学的计算机科学家们正让这件事情变得有可能。

近日,他们发布了一项有趣的最新研究成果:以现有美国前总统巴拉克奥巴马的音频和视频为原料,用人工智能的方法制作出以假乱真的奥巴马视频。

在此之前,华盛顿大学的计算机科学家已表示,他们可以通过分析网络图像资料制作人物数字化身(digital doppelgängers)。从社会名流,如汤姆汉克斯(《阿甘正传》的阿甘)、阿诺德施瓦辛格(《终结者》的终结者),到公众人物,如乔治.W.布什、巴拉克奥巴马,他们的数字化身都可以被制作出。

在此次研究中,该实验室将奥巴马选取为对象是因为网上有大量奥巴马的高清视频。这个研究团队通过神经网络分析了上百万帧奥巴马的视频,用以掌握奥巴马说话时的面部元素变化,例如嘴唇、牙齿和皱纹的移动。

为了使神经网络学习到嘴型和声音之间的相互联系,研究人员将音频片段与视频的原始声音文件剪辑在一起,制成神经网络学习的数据源。然后,他们把匹配了新音频片段的嘴型嫁接到了源视频中。本质上来说,研究人员利用过去几十年的素材,合成了嘴型和声音同步的奥巴马视频。

研究人员注意到,以前类似的研究大多是通过一遍遍录制人们说话的视频来寻找不同嘴型和声音之间的联系。然而,这是一项非常费钱、枯燥又费时的工作。与此相反,这个新方法可以利用已经存在于网络或其他地方的数百万小时的视频资料来展开研究,大大节约了成本。

该研究的合作者Ira Kemelmacher-Shlizerman说道,这项新技术的前景之一是为视频会议提供技术支持。虽然远程的视频会议通常伴随着卡顿、画面暂停或低分辨率的问题,但是音频通常不会出现问题。因此在未来,视频会议可能只需要简单传输人们说话的音频,然后用这个软件重构出人们说话时候的样子。这项工作也能在VR和AR应用中用数字化替身的方式帮助人们对话。

此外,他们也期待这项工作能在未来帮助VR(虚拟现实)或AR(增强现实)应用生成人物数字化模型。

研究人员注意到,他们做的假视频目前还不是尽善尽美。例如在一个目标视频中,当奥巴马将脸转离正对镜头方向的时候,他尚有缺陷的脸部三维建模会使他的嘴重叠到脸外的背景上去。此外,奥巴马也偶尔会长出“双下巴”。

除此之外,研究团队也注意到,他们目前的成果还无法模拟情绪变化。因此在假视频中,奥巴马的脸部表情可能会在非正式的发言场合显得太严肃,或者在严肃的发言场合显得太随意。他们表示,用神经网络来预测视频中的情感变化将会是一个非常有趣的任务。

研究者们也表示,他们很小心地避免了将非奥巴马本人的音频制作成假视频。“但这种连音频一同伪造的假视频可能很快就能被制作出来了”,来自华盛顿大学的计算机科学家、该研究的第一作者 SupasornSuwajanakorn说道。也就是说,在文章开头提到的“奥巴马为你送生日祝福”的情境很快就能变为现实了。

有趣的是,这项研究提供了假视频制作的技术支持,同时也启发了我们检测假视频的方法。譬如,在被处理过的假视频中,人物的嘴部和牙齿会产生局部模糊。Suwajanakorn 说:“这种模糊虽然很难被人眼识别,却可以被一个比对不同视频嘴部模糊程度的程序很有效地识别出来。”

在一定程度上,嘴型变化和说话内容之间的联系是全人类共有的特征。因此,用奥巴马的视频训练出来的神经网络模型或许也可以被用到其他人物的假视频制作上。或许在不久的将来,不需要录制大量的个人视频,你也能够快速制作出你自己的“虚拟人像”。

当那天到来,你的语音将会把你的虚拟影像带去世界各地,但你或许也会发现“假冒”的自己在各地游走。当然,也可能会发现正在说freestyle的奥巴马。

如果一切成真,你会如何看待这项技术呢?欢迎在文末留言说出你的看法。

原文链接:http://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-creates-fake-obama

20177《顶级数据团队建设全景报告》下载


            
              
              
               
                 
                 

关于转载


如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。


志愿者介绍

回复“志愿者”加入我们


往期精彩文章

点击图片阅读

围观马斯克和小扎Battle?他们说的可不是同一个AI

登录查看更多
0

相关内容

华盛顿大学(University of Washington)创建于1861年,坐落在美国最适宜居住和工作的城市西雅图,是美国西海岸最古老的大学,是一所世界顶尖的著名大学,长期保持世界大学财政支出和研究经费前三位。华盛顿大学拥有世界最顶尖的教师队伍,拥有29,804名教职员工,包括5803名教师,师生比例为 1:7.3 ,其中众多教授为所在学术领域的世界领导者。
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
153+阅读 · 2020年6月27日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
多模态深度学习综述,18页pdf
专知会员服务
217+阅读 · 2020年3月29日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
142+阅读 · 2020年2月16日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
203+阅读 · 2020年2月7日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
165+阅读 · 2019年12月2日
换脸算什么?现在AI都能一键“脱衣”了
腾讯科技
10+阅读 · 2019年6月30日
当你的头出现在A片演员的身体上
PingWest品玩
7+阅读 · 2019年1月6日
你知道计算机视觉领域这些“黑科技”吗?
计算机视觉life
6+阅读 · 2018年12月4日
Python | 拯救鉴黄师
计算机与网络安全
5+阅读 · 2018年2月17日
VR下的啪啪啪,是单身狗的天堂,还是地狱?
猎云网
4+阅读 · 2017年11月18日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关VIP内容
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
153+阅读 · 2020年6月27日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
多模态深度学习综述,18页pdf
专知会员服务
217+阅读 · 2020年3月29日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
142+阅读 · 2020年2月16日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
203+阅读 · 2020年2月7日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
165+阅读 · 2019年12月2日
相关资讯
换脸算什么?现在AI都能一键“脱衣”了
腾讯科技
10+阅读 · 2019年6月30日
当你的头出现在A片演员的身体上
PingWest品玩
7+阅读 · 2019年1月6日
你知道计算机视觉领域这些“黑科技”吗?
计算机视觉life
6+阅读 · 2018年12月4日
Python | 拯救鉴黄师
计算机与网络安全
5+阅读 · 2018年2月17日
VR下的啪啪啪,是单身狗的天堂,还是地狱?
猎云网
4+阅读 · 2017年11月18日
Top
微信扫码咨询专知VIP会员