Text-to-Image models have introduced a remarkable leap in the evolution of machine learning, demonstrating high-quality synthesis of images from a given text-prompt. However, these powerful pretrained models still lack control handles that can guide spatial properties of the synthesized images. In this work, we introduce a universal approach to guide a pretrained text-to-image diffusion model, with a spatial map from another domain (e.g., sketch) during inference time. Unlike previous works, our method does not require to train a dedicated model or a specialized encoder for the task. Our key idea is to train a Latent Guidance Predictor (LGP) - a small, per-pixel, Multi-Layer Perceptron (MLP) that maps latent features of noisy images to spatial maps, where the deep features are extracted from the core Denoising Diffusion Probabilistic Model (DDPM) network. The LGP is trained only on a few thousand images and constitutes a differential guiding map predictor, over which the loss is computed and propagated back to push the intermediate images to agree with the spatial map. The per-pixel training offers flexibility and locality which allows the technique to perform well on out-of-domain sketches, including free-hand style drawings. We take a particular focus on the sketch-to-image translation task, revealing a robust and expressive way to generate images that follow the guidance of a sketch of arbitrary style or domain. Project page: sketch-guided-diffusion.github.io
翻译:文本到图像模型在机器学习的进化中引入了惊人的飞跃, 展示了对特定文本提示的图像进行高质量的合成。 然而, 这些强大的预设模型仍然缺乏能够指导合成图像空间属性的控制控控控控控控控控控控控控控控控控控控控。 在这项工作中, 我们引入了一种通用方法来指导预设的文本到图像扩散模型, 在推断时使用来自另一个领域( 如草图) 的空间地图。 与以前的工作不同, 我们的方法并不需要为任务培训一个专门的模型或专门的编码。 我们的关键理念是培训一个高级指导直流直线描述( LGP) - 一个小的、 半像素控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控控, 具体地平面的直路路图判算法, 、 向平面判定直控控控控控路、 、 直路路路路、 、 、 路路路、 、 、 向、 路路路路、 向、 、 向、 向、 向、 向、 向、 向、 向下路路路路路路路、 向、 、 向、 、 向、 向、 向、 向、 、 、 、 向、 向、 、 、 向、 向、 、 、 、 向、 、 、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 、 、 、 向、 、 、 、 、 、 、 、 向、 、 、 、 、 、 、 、 、 、 向、 、 向、 向、 向、 向、 、 、 、 、 、 、 、 、 、 、 、 向、 向、 、 、 、 、 、 、 、 、 、 、 、 、 、