【博士论文】可控图像与视频合成，201页pdf

近年来，生成模型取得了显著进展，大大提升了合成图像和视频的质量。本论文在此基础上进一步研究了生成模型的可控性。在提高合成质量的同时，使生成模型具备控制合成内容的能力也至关重要，因为可控性为用户交互和定制内容创作铺平了道路。本论文研究了可控的图像和视频合成，内容包括基于对话驱动的人脸图像操控、文本引导的人体图像与视频生成，以及从文本和图像生成视频。

本论文首先探讨了人脸的操控。为了使人脸编辑更加可控，提出了一种名为“Talk-to-Edit”的方法，该方法通过用户与机器之间的对话逐轮编辑人脸图像。对话由自然语言组成，但比自然语言更具表现力。编辑需求可以通过多轮对话得到澄清。基于对话的编辑要求模型能够执行细粒度的编辑。为了支持细粒度的人脸编辑，在预训练的StyleGAN的潜在空间中建模了一个连续的“语义场”，该语义场考虑了潜在空间的非线性特性。编辑通过沿着语义场遍历潜在空间来实现，轨迹由语言控制引导。

在人脸之外，本论文还探讨了另一类与人相关的媒体——人体全身图像的可控生成。相比人脸，全身图像合成更为复杂，因为涉及许多因素，例如人脸和人体姿态。为了实现更可控的合成，人体全身图像的生成由文本驱动。文本指定了期望服装的长度和外观。为此，提出了一个名为Text2Human的新框架，用于高保真和多样化的人体全身图像生成。该框架构建了一个分层的纹理感知码本，用于存储不同尺度下不同纹理的多种表示。图像生成通过从该码本中采样并使用基于扩散的混合专家Transformer来完成，根据输入的文本进行采样生成。生成的图像进一步通过前馈索引预测网络进行细化。

基于文本驱动的人体图像生成的探索，本论文接着研究了文本驱动的人体视频生成，其中视频序列是根据描述目标人物外观和动作的文本生成的。这要求在执行复杂动作的同时保持生成人物的外观一致性。为此，提出了Text2Performer方法，该方法通过文本生成具有生动动作的人体视频。具体而言，人体表示被分解为外观表示和姿态表示。通过固定外观表示同时采样姿态表示，可以很好地保持外观一致性。姿态表示的采样通过一种新颖的连续VQ扩散模型（VQ-diffuser）实现，该模型直接输出连续的姿态嵌入，以更好地进行动作建模。最后，除了生成以人为中心的内容外，生成通用视频对于视觉合成系统也非常重要。本论文还旨在提高包含通用物体的视频合成的可控性。合成视频的内容通过文本提示和图像提示进行控制。引入图像提示到文本生成视频模型中的动机是，仅依靠文本提示不足以准确描述与用户意图对齐的期望主体外观，尤其是在定制内容创作中。文本提示通过交叉注意力模块进行嵌入，这是文本生成视频方法中的常见做法。为了有效注入图像提示信息，提出的方法VideoBooth以粗到细的方式注入图像提示。图像编码器的粗略视觉嵌入提供图像提示的高层次编码，而提出的注意力注入模块中的细粒度视觉嵌入则提供图像提示的多尺度和详细编码。这两种互补的嵌入能够忠实地捕捉期望的外观。

总体而言，本论文在图像和视频合成领域提出了几项进展，介绍了灵活的控制方式，增强了用户交互能力，并促进了定制内容的创作。

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

42+阅读 · 2024年6月7日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

24+阅读 · 2024年4月22日

【博士论文】面向计算机视觉中实践约束的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月21日

【哥伦比亚大学博士论文】面向计算机视觉中实际约束条件的模型适应通用框架，140页pdf

专知会员服务

25+阅读 · 2024年2月8日