新智元原创
编辑:白峰
现在的互联网信息呈爆炸式增长,而图片和视频表达的东西更丰富更直接,所以Facebook一直在加码图片和视觉AI领域。
Facebook最新P图AI,将人逼真地嵌入照片
上周在Arxiv.org发表的一篇论文中,Facebook AI Research和特拉维夫大学的科学家提出了一种新的技术,可将人以照片级的分辨率插入现有图像中。
该技术利用AI来创建人的语义图并估计给定图片中其他人的姿势,然后渲染该人的像素并生成与目标人脸相匹配的脸。
论文题目也很有代入感「Wish You Were Here」,出去旅游拍了很多照片,但是好友没能同行很是遗憾,有了这个AI系统,只需要一张好友的照片,好友就能隔空加入!
三个模型各司其职,换装换表情调整姿势通通不是问题
将人物P到照片中并不难,难的是如何让新加入的人物看着更真实,在PS中我们需要调整人物色阶、饱和度等来适应整体环境,但是人物表情调整起来就麻烦了,更别说和原图中的人物互动了。
而这个P图AI可以自适应地完成这些调整,让照片看起来跟真的一样。
Facebook研究人员采用了以下三种模型来实现:
本质生成网络(EGN),用于在新图像中合成目标人物的语义姿势信息。
多条件渲染网络(MCRN),在给定语义姿势图和分割目标人物的情况下,渲染现实人物。
面部修饰网络(FRN),用于修饰生成的面部高级特征。
EGN
EGN主要用来捕捉图像中的人与人之间的互动,并提供一种连贯的方式将新人加入图像。它创建的语义图能表示背景,头发,脸部,躯干,上肢,上身穿着,下半身穿着,下肢和鞋子等,并且与现有人员的环境相适应。此外,EGN还支持使用自定义轮廓来指定新加入人员的大小和位置。
EGN网络结构
EGN的效果图,新人还能自适应地加入群聊
MCRN
至于MCRN,它会学习如何将现实人物渲染并融合到图像中以创建新图像,并以可自定义的方式嵌入目标人物的外观属性(例如衬衫,裤子和头发的颜色)。
FRN
最后,FRN会从该人的原始图像进行微调来获得新的面部图像。
「Wish You Were Here」的效果图,只需要单张静态图片,系统就能自动调整要人物的姿势和面部表情嵌入到目标图片中。
「欺骗性」超强,5人以上照片真伪难辨
在实验过程中,研究人员对来自开源多人解析数据集的20,000多幅随机选择的图像进行了EGN和MCRN训练,扩增到51,717至53,598个训练样本。
志愿者负责区分AI系统插入的人与照片中真实的人,平均有43%的正确率,但是当照片中包含5个人以上时,只有28%的志愿者能区分开,说明这个AI系统还是有很强的「欺骗性」,尤其在人多的时候。
作者也承认,现在的方法有局限性,即它无法吸引照片中的其他人,并且训练时没考虑目标人群及其属性。
也就是说被嵌入的人物和原片中的人物是缺乏深度联系的,会影响照片中人物的整体效果。但他们认为,可以通过提升训练技术来克服这些问题。
调整过程的一些badcase
总体来看,这个AI系统具备了修改图像的能力,在保持整体图像质量的同时还能保持场景的语义信息,可以将目标人物以高分辨率添加到现有图像中。
站在巨人肩膀上,炮制自己的PS
Facebook团队的工作建立在Google提出的AI系统基础上,该系统可以根据周围环境将对象(例如汽车和行人)直接插入照片中。
google 上下文感知和实例替换的论文
前不久,麻省理工学院的研究人员也制作了一种图像编辑AI,可以实时替换图像中的背景。
虽然将人物嵌入到图片不是AI的最佳应用,但对于创意产业来说可是莫大的福音,因为照片和电影的制作往往十分昂贵。而使用这个AI系统,摄影师可以用数字方式插入演员,而不必花费数小时在图像编辑软件中获得想要的效果。
感兴趣的小伙伴可以去找下开源实现,制作一个自己的加人换背景的P图工具了,重要的是有了AI驱动,可以提升效率成百上千倍!
相关链接
https://arxiv.org/pdf/2005.10663.pdf
http://papers.nips.cc/paper/8240-context-aware-synthesis-and-placement-of-object-instances.pdf