生成式人工智能旨在制定特定类型的数据分布,以便能够生成模仿底层分布的真实样本的新数据实例。值得一提的是,在计算机视觉中,生成模型和判别模型是两大主要类别。后者旨在基于特定数据实例准确预测类别、对象位置、分割等,而前者探索和制造复杂的数据流形。有人可能会争论,由于旨在模拟现实世界中无限制领域的巨大复杂性的数据,计算机视觉中的生成式人工智能需要更加先进。然而,即使是最复杂的网络设计,也很难准确地制定我们自然世界中的确切数据分布,因此还有很大的改进空间。 随着最近生成式人工智能技术的突破,现在的研究人员和工程师创建了开始处理现实世界需求的高性能生成解决方案作为商业产品,幸运的是,这篇论文也参与其中。在这篇论文中,作者旨在通过探索最佳可能的视觉表征形式(即神经隐式嵌入、频域表征、基于变换器的表征),以尽可能捕获更多的视觉信息,进一步推动生成式人工智能的性能。毫无疑问,数据表征是生成式人工智能的一个关键前提,因为它揭示了模型能力的上限。此外,从一个更广泛但不那么精确的角度来看,生成建模的目标——模拟精确的数据分布,也可以视为一种表征学习。在论文的最后部分,作者还探讨了超越视觉表征的主题,向更一般的跨模态表征进发,适应多种类型的数据模态,这是朝着更具挑战性的目标迈进的启发式步骤:通用人工智能。
这篇论文始于UltraSR,探索适合图像超分辨率的隐式神经视觉表征,通过任意上采样比例合成图像细节。UltraSR的核心思想将隐式神经表征与可学习的周期性编码相结合,以连续函数的形式在高频流形中制定视觉细节。当UltraSR探索神经视觉表征时,Spectral Hint GAN(SH-GAN)采取了不同的路线,深入涉及频域中的视觉特征进行图像完成。SH-GAN提出了一个新颖的频谱网络模块:Spectral Hint Unit(SHU),以及两种新策略:异构过滤和高斯分割。SH-GAN因以下原因超越了以往的图像完成方法:通过基于StyleGAN的共调制框架有效地填充低频图像结构,以及通过SHU有效地填充高频图像纹理。最近在文本到图像(T2I)扩散模型的进展激发我们探索新的工作Prompt-Free Diffusion,在这项工作中,我们用SeeCoder代替CLIP文本编码器来捕获视觉线索,从T2I系统中移除了提示的需要。SeeCoder自动提取各种视觉线索,包括但不限于语义、纹理、背景等,并将它们传递给扩散模型。我们的合成结果既高质量又紧密跟随SeeCoder编码的参考视觉线索。与Prompt-Free Diffusion并行,我们提出了Versatile Diffusion,这是第一个提出统一的多模态多流扩散管道的工作,均匀处理多种跨模态任务,生成图像、文本和变体。Versatile Diffusion具有更广泛的范围,我们的目标是将不同模态的表征合并到一个生成网络中,向通用生成式人工智能的大胆一步迈进。
总之,所有工作都提供了有关数据表征的宝贵见解,其中UltraSR、SH-GAN和Prompt-Free Diffusion积极探索了三种方案下的最佳视觉表征:隐式神经表征、频域表征和基于变换器的表征。在最后一部分,Versatile Diffusion探索了图像、文本和图文跨模态的统一表征和生成。UltraSR在所有比例上的DIV2K数据集上比基线模型高出0.05 dB。SH-GAN在FFHQ数据集上达到FID 3.41,在Places2数据集上达到7.10,获得了大规模自由形式图像完成任务中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以惊人质量完成流行的示例-based图像生成任务。Versatile Diffusion在Coco2014数据集上的CLIP相似度为0.269和0.858;FID为11.20和4.57,测量文本到图像和图像变化,超越了所有方面的基线Stable Diffusion。