StyleGAN generates photorealistic portrait images of faces with eyes, teeth, hair and context (neck, shoulders, background), but lacks a rig-like control over semantic face parameters that are interpretable in 3D, such as face pose, expressions, and scene illumination. Three-dimensional morphable face models (3DMMs) on the other hand offer control over the semantic parameters, but lack photorealism when rendered and only model the face interior, not other parts of a portrait image (hair, mouth interior, background). We present the first method to provide a face rig-like control over a pretrained and fixed StyleGAN via a 3DMM. A new rigging network, RigNet is trained between the 3DMM's semantic parameters and StyleGAN's input. The network is trained in a self-supervised manner, without the need for manual annotations. At test time, our method generates portrait images with the photorealism of StyleGAN and provides explicit control over the 3D semantic parameters of the face.
翻译:StyleGAN 生成有眼睛、牙齿、头发和背景面部( 颈部、 肩膀、 背景) 照片真实化的图像,但缺乏对3D 中可解释的语义表情参数( 如面容、 表达式和场景光化) 的像样控制。 另一面的三维可变形面型模型( 3DM ) 提供了对语义参数( 3DM ) 的控制, 但是在制作时缺乏光真化, 仅模拟面部内部, 而不是肖像的其他部分( 头发、 嘴内部、 背景) 。 我们展示了第一个方法, 通过 3DMM 来提供对一个预先培训和固定的 StyleGAN 进行像像面部位控制的方法。 一个新的操控网络, RigNet 在 3DM MM 的语义参数和 StyGAN 输入器之间接受培训。 网络以自我监督的方式培训, 不需要手动说明。 在测试时, 我们的方法生成像像像像像像像像像像一样的图像,, 并且对面的3D 语义参数提供明确的控制 。