本论文在两个主要方向上作出了创新贡献:一是提升生成模型(尤其是归一化流)的效率,二是将生成模型应用于解决真实世界的计算机视觉问题。第一部分中,我们通过六个关键创新,对归一化流结构进行了重要改进:(1)构建了可逆的 3×3 卷积层,并从数学上给出了可逆性的充要条件;(2)提出了一种更高效的四路耦合(Quad-coupling)层;(3)设计了针对 k×k 卷积层的快速高效并行反演算法;(4)提出了用于卷积逆运算的快速高效反向传播算法;(5)在 Inverse-Flow 中于正向传播阶段使用卷积的逆运算,并采用所提出的反向传播算法进行训练;(6)提出 AffineStableSR,这是一种紧凑高效的超分辨率模型,利用预训练权重与归一化流层,在保持性能的同时显著减少参数量。这些改进在显著提升计算效率的同时,仍然保持了模型的表达能力,相较现有方法具有明显优势。 第二部分展示了生成建模方面的这些进展在多种计算机视觉任务中的实际应用。具体而言,本文工作包括:(1)基于条件 GAN 的农产品自动质量评估系统,用于缓解类别不平衡、数据稀缺与标注困难等问题,并在种子纯度检测任务中取得了较高准确率;(2)一个用于地质制图的无监督框架,利用堆叠自动编码器进行降维,相比传统方法展现出更优的特征提取能力;(3)提出了一种面向自动驾驶数据集的隐私保护方法,基于人脸检测与图像修复(inpainting);(4)进一步利用基于 Stable Diffusion 的图像修复技术,对检测到的人脸和车牌进行替换,从而推动隐私保护技术及其在该领域中的伦理实践;(5)提出了一种用于艺术修复的改进扩散模型,通过统一的微调策略,有效应对多种类型的退化。 本论文在生成模型的理论理解及其实践应用方面均取得了进展,在效率、可扩展性以及多领域的真实应用价值等方面实现了显著提升。 关键词:归一化流,可逆卷积,生成模型,图像生成模型的应用

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员