基于视频扩散模型的学习重聚焦方法 (Learning to Refocus with Video Diffusion Models) - 专知论文

会员服务 ·

0

视频 · 视频扩散模型 · 扩散模型 · 系统 · 模型实现 ·

Learning to Refocus with Video Diffusion Models

翻译：基于视频扩散模型的学习重聚焦方法

SaiKiran Tedla,Zhoutong Zhang,Xuaner Zhang,Shumian Xin

from arxiv, Code and data are available at https://learn2refocus.github.io . SIGGRAPH Asia 2025, Dec. 2025

Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io

翻译：对焦是摄影的基石，然而自动对焦系统常无法准确捕捉目标主体，用户也常希望在拍摄后调整焦点。我们提出一种利用视频扩散模型实现逼真后捕获重聚焦的新方法。该方法仅需单张失焦图像，即可生成感知准确的焦堆栈（以视频序列形式表示），从而实现交互式重聚焦并解锁一系列下游应用。为支持本工作及未来研究，我们发布了在多样化真实世界智能手机条件下采集的大规模焦堆栈数据集。在具有挑战性的场景中，我们的方法在感知质量与鲁棒性方面均持续优于现有方法，为日常摄影中更先进的对焦编辑能力开辟了道路。代码与数据详见 www.learn2refocus.github.io

0

相关内容

视频

【ICCV2025】多视角三维点跟踪

【ICCV2025】多视角三维点跟踪

专知会员服务

10+阅读 · 8月30日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 5月16日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2月25日

【CVPR2024】DiffusionMTL: 从部分标注数据学习多任务去噪扩散模型

【CVPR2024】DiffusionMTL: 从部分标注数据学习多任务去噪扩散模型

专知会员服务

34+阅读 · 2024年3月25日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Active Constraint Learning in High Dimensions from Demonstrations

Arxiv

0+阅读 · 12月28日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 12月26日

Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation

Arxiv

0+阅读 · 12月25日

Reinforcement Learning for Unsupervised Video Summarization with Reward Generator Training

Arxiv

0+阅读 · 12月22日

Vidar: Embodied Video Diffusion Model for Generalist Manipulation

Arxiv

0+阅读 · 12月20日

VIP会员

文章信息

相关主题

视频扩散模型

相关VIP内容

【ICCV2025】多视角三维点跟踪

【ICCV2025】多视角三维点跟踪

专知会员服务

10+阅读 · 8月30日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 5月16日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2月25日

【CVPR2024】DiffusionMTL: 从部分标注数据学习多任务去噪扩散模型

【CVPR2024】DiffusionMTL: 从部分标注数据学习多任务去噪扩散模型

专知会员服务

34+阅读 · 2024年3月25日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约联合仿真与集成、验证与鉴定服务标准》2025最新40页

《面向协同任务的无人地面车辆与无人机（UGV-UAV）集成研究综述》2025最新综述论文

《理解大语言模型在军事战术任务规划中的局限性》

《国防与安全会议论文集》最新80页

相关资讯

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知

15+阅读 · 2020年7月23日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关论文

Active Constraint Learning in High Dimensions from Demonstrations

Arxiv

0+阅读 · 12月28日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 12月26日

Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation

Arxiv

0+阅读 · 12月25日

Reinforcement Learning for Unsupervised Video Summarization with Reward Generator Training

Arxiv

0+阅读 · 12月22日

Vidar: Embodied Video Diffusion Model for Generalist Manipulation

Arxiv

0+阅读 · 12月20日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员