【UCSD博士论文】可控且高效的视觉生成 - 专知VIP

会员服务 ·

0

视觉生成 · 开放词汇通用图像分割 · 博士论文 ·

【UCSD博士论文】可控且高效的视觉生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本论文提出了若干旨在提升视觉生成的方法，重点围绕计算机视觉系统中的可控性与高效性展开。在深入探讨视觉生成领域之前，我们首先介绍 MaskCLIP，它高效地利用了预训练的视觉-语言模型，应用于开放词汇图像分割任务。随后，我们将讨论 DiffusionRig、PatchDM和 Gen2Res，以展示我们在可控且高效图像生成方面取得的进展。综上所述，本论文所展示的研究工作致力于构建既可控又高效的视觉系统，从而促进视觉生成与理解能力的双重提升。

第二章引入了一个新颖的任务：开放词汇通用图像分割（open-vocabulary universal image segmentation），其目标是在推理阶段对任意描述类别执行语义分割、实例分割和全景分割。我们首先基于预训练的 CLIP 模型构建了一个基线系统，并提出了 MaskCLIP——一种基于 Transformer 的方法，采用 MaskCLIP 视觉编码器将掩码 token 融合进预训练的 ViT-CLIP 模型中。该设计在无需计算密集型的师生训练框架下，有效利用 CLIP 的密集特征，实现了分割和类别预测。第三章介绍了用于个性化面部外观编辑的 DiffusionRig。该方法基于从真实环境图像中估计得到的粗略三维人脸模型，使用条件扩散模型将简单的 CGI 渲染映射为逼真的个人图像。DiffusionRig 采用两阶段训练策略：首先在大规模数据集上学习通用的面部先验，然后在少量个体图像上进行微调。该策略能稳健地编辑面部特征，同时保留个体身份与高频细节。第四章介绍了 Patch-DM，一种去噪扩散模型，在训练过程中使用小图像块（如 64×64）生成高分辨率图像（如 1024×512）。该方法通过一种新颖的特征拼接策略，缓解了基于图像块合成中常见的边界伪影问题。具体地，该策略通过裁剪并组合邻近图像块中重叠的特征，实现了对偏移图像块的无缝预测。第五章提出了一种将预训练去噪扩散模型适配至图像修复任务的方法。该方法通过向退化图像中添加噪声，然后利用预训练模型进行去噪，从而完成图像修复。通过在选定的锚图像上微调模型，以保持输入图像的特征，该受限生成空间确保了在保持原始身份与整体质量的同时，获得高质量的修复结果。

成为VIP会员查看完整内容

2

相关内容

视觉生成

【博士论文】迈向可扩展、灵活的点云场景流

【博士论文】迈向可扩展、灵活的点云场景流

专知会员服务

14+阅读 · 3月21日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【CMU博士论文】用于机器人规划与控制的可微凸模型

【CMU博士论文】用于机器人规划与控制的可微凸模型

专知会员服务

22+阅读 · 2024年12月7日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

27+阅读 · 2024年8月16日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

46+阅读 · 2024年7月21日

【CMU博士论文】面向可部署的强化学习：安全性、鲁棒性、适应性和可扩展性

【CMU博士论文】面向可部署的强化学习：安全性、鲁棒性、适应性和可扩展性

专知会员服务

38+阅读 · 2024年4月23日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

48+阅读 · 2022年11月28日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

13+阅读 · 2019年8月8日

【干货】计算机视觉实战系列09——用Python做图像处理

【干货】计算机视觉实战系列09——用Python做图像处理

专知

19+阅读 · 2018年5月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多轴飞行器航拍数据的植物生长分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

小微企业互联网平台融资模式研究—基于双向拍卖和信号博弈双重视角

国家自然科学基金

4+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

169+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

39+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

459+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

142+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

168+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

开放词汇通用图像分割

相关VIP内容

【博士论文】迈向可扩展、灵活的点云场景流

【博士论文】迈向可扩展、灵活的点云场景流

专知会员服务

14+阅读 · 3月21日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【CMU博士论文】用于机器人规划与控制的可微凸模型

【CMU博士论文】用于机器人规划与控制的可微凸模型

专知会员服务

22+阅读 · 2024年12月7日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

27+阅读 · 2024年8月16日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

46+阅读 · 2024年7月21日

【CMU博士论文】面向可部署的强化学习：安全性、鲁棒性、适应性和可扩展性

【CMU博士论文】面向可部署的强化学习：安全性、鲁棒性、适应性和可扩展性

专知会员服务

38+阅读 · 2024年4月23日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

48+阅读 · 2022年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【UCSD博士论文】可控且高效的视觉生成

构建具身智能新范式：人形机器人技术现状及发展趋势综述

中文版 | 美军引入AI指挥官“泰坦”推动国防技术转型

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

相关资讯

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

13+阅读 · 2019年8月8日

【干货】计算机视觉实战系列09——用Python做图像处理

【干货】计算机视觉实战系列09——用Python做图像处理

专知

19+阅读 · 2018年5月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多轴飞行器航拍数据的植物生长分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

小微企业互联网平台融资模式研究—基于双向拍卖和信号博弈双重视角

国家自然科学基金

4+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

169+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

39+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

459+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

142+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

168+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员