风格迁移：十年综述

摘要——人工智能生成内容（AIGC）的革命性进展从根本上改变了视觉内容创作与艺术表达的格局。尽管图像生成与风格迁移领域取得了显著成果，但其底层机制与审美影响仍未被充分理解。本文对视觉艺术领域中的 AIGC 技术进行了全面综述，系统梳理了其从早期算法框架到当代深度生成模型的演进过程。我们识别出三种关键范式——变分自编码器（VAE）、生成对抗网络（GAN）以及扩散模型（Diffusion Models），并分析了它们在弥合人类创造力与机器合成之间鸿沟中的作用。为支撑我们的分析，我们系统回顾了过去十年中发表的 500 余篇研究论文，涵盖基础理论发展与最新技术进展。此外，本文还提出了一个多维评估框架，涵盖技术创新性、艺术价值、视觉质量、计算效率与创意潜力等维度。研究结果揭示了 AIGC 系统的变革性能力与当前局限性，强调了其对未来创作实践的深远影响。通过本次全面综述，我们提供了人工智能与艺术表达融合的统一视角，同时指出了该快速发展领域中的关键挑战与未来研究的潜在方向。 关键词——图像生成，风格迁移，生成模型，综述

1 引言

“我梦见自己的画作，然后我画出自己的梦。” ——文森特·梵高风格迁移旨在学习一个映射函数 F : (Ic, Is) ↦ It，其中输出图像 It 在保留内容图像 Ic 的结构语义的同时，匹配参考图像 Is 的风格统计特征。自 Gatys 等人的开创性研究【1】以来，该领域已经从缓慢的优化方法发展到毫秒级的前馈生成器，近年来更是跃升至支持 4K 分辨率和细粒度语义控制的扩散模型与自回归（AR）生成管线。风格迁移技术广泛应用于肖像润饰、实时视频风格化以及游戏与电影中的三维资产生成。过去十年的研究揭示了三次颠覆性飞跃： (i) 神经风格迁移展示了卷积网络中的 Gram 统计量能够编码可迁移的风格； (ii) 实时生成器与对抗训练带来了逼真的写实风格； (iii) 2022–2025 年的扩散与自回归系统在规模与可控性上实现了双重突破。然而，核心挑战依然存在：如何在有限计算资源下，在感知保真度、生成速度与风格多样性之间取得平衡。

1.1 技术演进

早期的计算机图形启发式方法，随着变分自编码器（VAE）【2】与生成对抗网络（GAN）【3】的提出，逐步演化为深度生成建模技术。Gatys 等人的神经风格迁移开创性地提出使用 Gram 统计量表示视觉风格，催生了实时前馈变体与任意风格迁移方法。随后，扩散模型【12】以及大规模文本-图像生成系统（如 Stable Diffusion【22】和 DALL·E 2）进一步提升了图像分辨率与语义控制能力。同时，CLIP【43】的引入也使语言引导的风格化成为可能（如 StyleGAN-NADA【44】、CLIPstyler【45】）。近期的研究则探索结构解耦与高效架构，实现了可实时运行、具备强内容保持能力的 4K 风格迁移系统。图 1 总结了这些重要的技术里程碑。

1.2 研究目标与贡献

本综述聚焦于风格迁移中的生成模型方法，涵盖以下研究目标与贡献： 1）生成模型：系统梳理基于 GAN、VAE、自回归模型与扩散模型的风格迁移方法，重点关注图像质量、训练稳定性与风格-内容控制能力。 2）评估框架：探讨不同方法在有效性、鲁棒性、可控性、可解释性、实用性与审美质量等方面的表现。 3）应用与未来趋势：总结风格迁移在肖像、视频、文本、三维等领域的现有应用场景，并展望未来可能的发展方向。 4）数据集与评估指标：汇总公开可用的数据集与风格迁移研究中常用的评估基准。本文结构如下：第 2 节介绍风格迁移的基本原理，第 3 节探讨生成模型的发展，第 4 节讨论评估框架，第 5 节分析领域应用，第 6 节回顾数据集与评估方法。补充资源可访问：

https://github.com/neptune-T/Awesome-Style-Transfer。