摘要——人工智能生成内容(AIGC)的革命性进展从根本上改变了视觉内容创作与艺术表达的格局。尽管图像生成与风格迁移领域取得了显著成果,但其底层机制与审美影响仍未被充分理解。本文对视觉艺术领域中的 AIGC 技术进行了全面综述,系统梳理了其从早期算法框架到当代深度生成模型的演进过程。我们识别出三种关键范式——变分自编码器(VAE)、生成对抗网络(GAN)以及扩散模型(Diffusion Models),并分析了它们在弥合人类创造力与机器合成之间鸿沟中的作用。为支撑我们的分析,我们系统回顾了过去十年中发表的 500 余篇研究论文,涵盖基础理论发展与最新技术进展。此外,本文还提出了一个多维评估框架,涵盖技术创新性、艺术价值、视觉质量、计算效率与创意潜力等维度。研究结果揭示了 AIGC 系统的变革性能力与当前局限性,强调了其对未来创作实践的深远影响。通过本次全面综述,我们提供了人工智能与艺术表达融合的统一视角,同时指出了该快速发展领域中的关键挑战与未来研究的潜在方向。 关键词——图像生成,风格迁移,生成模型,综述

1 引言

“我梦见自己的画作,然后我画出自己的梦。” ——文森特·梵高 风格迁移旨在学习一个映射函数 F : (Ic, Is) ↦ It, 其中输出图像 It 在保留内容图像 Ic 的结构语义的同时,匹配参考图像 Is 的风格统计特征。 自 Gatys 等人的开创性研究【1】以来,该领域已经从缓慢的优化方法发展到毫秒级的前馈生成器,近年来更是跃升至支持 4K 分辨率和细粒度语义控制的扩散模型与自回归(AR)生成管线。风格迁移技术广泛应用于肖像润饰、实时视频风格化以及游戏与电影中的三维资产生成。 过去十年的研究揭示了三次颠覆性飞跃: (i) 神经风格迁移展示了卷积网络中的 Gram 统计量能够编码可迁移的风格; (ii) 实时生成器与对抗训练带来了逼真的写实风格; (iii) 2022–2025 年的扩散与自回归系统在规模与可控性上实现了双重突破。 然而,核心挑战依然存在:如何在有限计算资源下,在感知保真度、生成速度与风格多样性之间取得平衡。


1.1 技术演进

早期的计算机图形启发式方法,随着变分自编码器(VAE)【2】与生成对抗网络(GAN)【3】的提出,逐步演化为深度生成建模技术。Gatys 等人的神经风格迁移开创性地提出使用 Gram 统计量表示视觉风格,催生了实时前馈变体与任意风格迁移方法。 随后,扩散模型【12】以及大规模文本-图像生成系统(如 Stable Diffusion【22】和 DALL·E 2)进一步提升了图像分辨率与语义控制能力。同时,CLIP【43】的引入也使语言引导的风格化成为可能(如 StyleGAN-NADA【44】、CLIPstyler【45】)。 近期的研究则探索结构解耦与高效架构,实现了可实时运行、具备强内容保持能力的 4K 风格迁移系统。图 1 总结了这些重要的技术里程碑。


1.2 研究目标与贡献

本综述聚焦于风格迁移中的生成模型方法,涵盖以下研究目标与贡献: 1)生成模型:系统梳理基于 GAN、VAE、自回归模型与扩散模型的风格迁移方法,重点关注图像质量、训练稳定性与风格-内容控制能力。 2)评估框架:探讨不同方法在有效性、鲁棒性、可控性、可解释性、实用性与审美质量等方面的表现。 3)应用与未来趋势:总结风格迁移在肖像、视频、文本、三维等领域的现有应用场景,并展望未来可能的发展方向。 4)数据集与评估指标:汇总公开可用的数据集与风格迁移研究中常用的评估基准。 本文结构如下:第 2 节介绍风格迁移的基本原理,第 3 节探讨生成模型的发展,第 4 节讨论评估框架,第 5 节分析领域应用,第 6 节回顾数据集与评估方法。补充资源可访问:

https://github.com/neptune-T/Awesome-Style-Transfer。

成为VIP会员查看完整内容
1

相关内容

文本风格迁移综述
专知会员服务
8+阅读 · 6月3日
交互式生成视频综述
专知会员服务
10+阅读 · 5月4日
表格数据表示学习综述
专知会员服务
18+阅读 · 4月27日
4D生成技术的进展:研究综述
专知会员服务
22+阅读 · 3月19日
不平衡数据学习的全面综述
专知会员服务
38+阅读 · 2月15日
时空基础模型:愿景、挑战与机遇
专知会员服务
40+阅读 · 1月18日
工业中的数字孪生:全面综述
专知会员服务
69+阅读 · 2024年12月3日
《多模态对齐与融合》综述
专知会员服务
84+阅读 · 2024年11月27日
《Mixup数据增强及其扩展》综述
专知会员服务
37+阅读 · 2024年9月15日
专知会员服务
42+阅读 · 2021年7月10日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
【综述】生成式对抗网络GAN最新进展综述
专知
58+阅读 · 2019年6月5日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
46+阅读 · 2019年2月15日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
TensorFlow图像分类教程
机器学习研究会
34+阅读 · 2017年12月29日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
468+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
文本风格迁移综述
专知会员服务
8+阅读 · 6月3日
交互式生成视频综述
专知会员服务
10+阅读 · 5月4日
表格数据表示学习综述
专知会员服务
18+阅读 · 4月27日
4D生成技术的进展:研究综述
专知会员服务
22+阅读 · 3月19日
不平衡数据学习的全面综述
专知会员服务
38+阅读 · 2月15日
时空基础模型:愿景、挑战与机遇
专知会员服务
40+阅读 · 1月18日
工业中的数字孪生:全面综述
专知会员服务
69+阅读 · 2024年12月3日
《多模态对齐与融合》综述
专知会员服务
84+阅读 · 2024年11月27日
《Mixup数据增强及其扩展》综述
专知会员服务
37+阅读 · 2024年9月15日
专知会员服务
42+阅读 · 2021年7月10日
相关资讯
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
【综述】生成式对抗网络GAN最新进展综述
专知
58+阅读 · 2019年6月5日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
46+阅读 · 2019年2月15日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
TensorFlow图像分类教程
机器学习研究会
34+阅读 · 2017年12月29日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员