成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
MMEditing:多任务图像视频编辑工具箱
2020 年 8 月 11 日
极市平台
点击蓝字
关注我们
作者丨RookieRui@知乎
来源丨https://zhuanlan.zhihu.com/p/178867385
我们近期在 OpenMMLab 项目中开源了
MMEditing
。这是一个图像和视频编辑的工具箱,它目前包含了常见的编辑任务,比如图像修复,图像抠图,超分辨率和生成模型。在编辑图像或者视频的时候,我们往往是需要组合使用以上任务的,因此
我们将它们整理到一个统一的框架下
,方便大家使用。
目前 MMEditing 的 repo 已经上线,欢迎大家点赞提issue:
open-mmlab/mmeditinggithub.com
在具体介绍每一个子任务前,让我们先来看一下 MMEditing 的优势吧!
1.
统一的框架
:我们设计了先进的框架来统一最常见的图像修复,图像抠图,超分辨率和生成模型这几个任务。用户可以在一个框架中方便地调用不同的算法和模型。
2.
灵活的模块化设计
:用户能够基于这套框架灵活地增加新的功能和算法。
3.
丰富的模型和文档
:下图中展示了我们支持的算法数目,要知道其中有不少算法是首次有完整的复现哦~我们也完善了文档(文档覆盖率高达90%以上)和入门材料,方便用户上手。
4.
高效的实现
:MMEditing所有的训练包括 GAN 的对抗训练都是基于高效的分布式训练框架部署的,对于一些基础的操作单元,我们也相应地进行了优化。
强调一下,现在的 MMEditing 不仅仅是研究导向的框架,还是一个可以用于入门和教学的框架,在这里你可以看到 low-level vision 中常用的模型和基础的任务,每个模型也都被很好地拆解,方便大家上手探索其中的奥秘。
下面让我们一起来走进 MMEditing,进一步了解一下不同的任务。
Super-Resolution 超分辨率
超分辨率(简称超分),是将低分辨率图像放大到高分辨率图像,如下图,一只小狒狒经过 SR网络后,可以得到放大,变成一只“大”狒狒。
随着深度学习的兴起,早在2014年,香港中文大学多媒体实验室就提出了首个使用卷积神经网络解决超分辨率的模型——SRCNN。作为图像超分辨率工作,SRCNN 对后续计算机视觉的底层算法研究产生了重要影响。后续,各种各样的网络结构如雨后春笋般地冒了出来,比如VDSR,EDSR,SRResNet 等等; 还有追求视觉效果的 SRGAN, ESRGAN。
MMEditing把一些基本的超分算法,比如 SRCNN,EDSR,SResNet,SRGAN还有视频的 EDVR 算法都包括进去。之前 OpenMMLab 中的 MMSR 也有类似的功能,相比之下,MMEditing 使用了更好的框架设计,用上了 MMCV 和 MMDetection 在发展过程中的经验积淀。整个 MM 系列都采用了类似的框架,只要掌握了一种,就能够轻而易举地掌握其他任务的代码库。
Inpainting修复
Inpainting(图像修复)是图像编辑领域里面一项基础的任务,其主要目标是修复图像中的受损(污染)区域。如下图中,左边是原图,中间是受损区域示意图,你可以去除图像中的不想要的人物,或者是图像中杂乱的不规则的受损区域。然后经过 Inpainting 修复算法就得到最右边的图啦。
Inpainting 作为一项基础任务,现如今已经被广泛的应用到各种各样的场景,比如面部修复,背景填充以及视频编辑中。
之前传统的 Patch-Matching 算法可以通过图中已知区域的纹理来快速填补当前受损区域。随着深度学习的发展,越来越多的工作利用深度神经网络实现更好的图像修复效果。深度图像修复领域中,有许多经典的开创性的工作像 Global&Local、Partial Conv 以及 DeepFill 系列,他们作为深度图像修复的经典模型被广泛地应用到后来的研究工作当中。可是这些方法都没有官方的 PyTorch 实现,为了方便大家更好的研究和深入了解这些模型,我们在 MMEditing 中集成了这些算法的训练和测试功能。同时,我们对其中一些重要的模块进行了代码上的优化,以使其更加符合 PyTorch 的风格,甚至是更快的 GPU 计算,从而能够有更好的训练速度。
Matting抠像
抠像(Matting)问题是一个在计算机视觉研究领域有重要价值的研究课题,其在工业界也有非常重要的应用。
抠像是将前景从图片或者视频中与背景分离开来的问题,比如下图中,输入是左图,一位超级可爱的小姐姐在秀丽的风景前中,我们希望得到右边的小姐姐的抠像结果(b)。它和 segmentation分割的不同之处在于,matting 需要得到更精准的边缘(如头发)以及与背景的组合系数。
为了降低求解的难度,一种最常见的方式是引入用户输入的 trimap(如下图),来对图片进行简单的三分类。其中,图中的黑色为背景,白色为前景,灰色为未知区域。给定 trimap 后,我们只需要求解未知区域的抠图结果,这大大降低了求解的难度。
在 MMEditing 中,我们首次完整复现了 DIM(Deep Image Matting)在原论文中的性能。除此之外,MMEditing 还包含当前开源 Matting 模型中性能最好的 GCA Matting 模型,以及速度最快的 IndexNet Matting。
Generation生成模型
Generation,中文含义为“生成”。所谓生成,不同于其他图像编辑的任务,旨在创造新的图像。我们试图通过深度学习的方式,让神经网络成为创造者,产生新的信息。生成任务一般分为两种,
非条件(unconditional)和条件(conditional)的生成。
所谓非条件生成,主要是从潜在空间(latent space)中的噪声(noise)往图像域(image domain)进行转换,并试图近似相关边缘概率分布,产生逼真的图像。
所谓条件生成,主要是从一个图像域映射到潜在空间,并进一步转换到另一个图像域。目前的MMEditing主要支持后者,即从一个图像域映射到另一个图像域,如分割的mask转换到真实图像、马转换到斑马等。后者的条件生成也更加符合目前图像编辑的主题。
而目前 MMEditing 支持的条件图像生成,又可以分为两种不同的设定。其中一种生成模型的训练数据中,包含成对的训练数据,被称为“成对图像到图像转换(paired image-to-image translation)”。这种设定一般生成任务的难度比较低,但对数据本身的要求比较高,生成效果一般比较良好。最经典的成对图像到图像转换的方法,名为
pix2pix
。它也是图像到图像转换领域开山鼻祖的文章,因此我们在这个版本中首先考虑对它进行实现,获得了与作者官方实现一致的结果。
另一种生成模型的训练数据中,仅包含非成对的训练数据,被称为“非成对图像到图像转换(unpaired image-to-image translation)”。这种设定一般对数据要求较低,很容易构建两个明确的图像域,但生成难度较大,生成效果会略微降低。提出非成对图像到图像转换问题,并首先给出解决方案(cycle-consistency)的方法,名为
CycleGAN
。CycleGAN 作为最经典的非成对图像到图像转换的生成方法,我们在这个版本中同样首先考虑对它进行实现和效果对齐。
生成(Generation)任务通常比较困难,但向人们展示出了惊人的效果和广阔的研究前景。在未来 MMEditing 代码库的版本中,我们会考虑加入更多不同的生成设定,以及多种生成方法,让我们的代码库更加全面、丰富、强大。
结语
MMEditing 作为 OpenMMLab 的一员,后面会逐渐地完善,不断修改 bugs,持续添加新功能。欢迎大家一起来完善 MMEditing,共同贡献 OpenMMLab! 下面是 OpenMMLab 中的其他成员的介绍,后续会有更多重磅的 project 出现,希望大家持续关注我们的OpenMMLab 计划,并且参与其中哈。
推荐阅读
超详细!使用OpenCV深度学习模块在图像分类下的应用实践
Matplotlib优雅作图笔记
21张让你代码能力突飞猛进的速查表(神经网络、线性代数、可视化等)
添加极市小助手微信
(ID : cv-mart)
,备注:
姓名-学校/公司-研究方向-城市
(如:小极-北大-
目标检测-
深圳),即可申请加入
极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR
等技术交流群
,更有
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、
干货资讯汇总、行业技术交流
,
一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取
最新CV干货
觉得有用麻烦给个在看啦~
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
图像修复
关注
52
图像修复(英语:Inpainting)指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中,这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中,图像修复又称图像插值或视频插值,指利用复杂的算法来替换已丢失、损坏的图像数据,主要替换一些小区域和瑕疵。
【复旦大学】从视觉到文本: 图像描述生成的研究进展综述
专知会员服务
78+阅读 · 2020年9月10日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
54+阅读 · 2019年11月20日
图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
【伯克利博士论文】从自然语言中学习(附106页pdf全文下载)
专知会员服务
50+阅读 · 2019年10月26日
【ICIP 2019 Tutorials】图像到图像的转换(Image-to-Image Translation),英伟达研究员Ming-Yu Liu
专知会员服务
25+阅读 · 2019年8月10日
【ICME2019】智能图像视频编辑,北大教程,400多页PPT
专知
11+阅读 · 2019年7月14日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
图像分割最新资料汇总(语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…)
人工智能前沿讲习班
144+阅读 · 2019年3月15日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
手把手教你用OpenCV和Python实现图像和视频神经风格迁移(代码)
新智元
9+阅读 · 2018年9月2日
无需GPU,只用OpenCV和Python实现图像和视频的风格迁移
论智
8+阅读 · 2018年8月29日
CVPR 2018 |“寻找”极小人脸
极市平台
14+阅读 · 2018年7月11日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
Deep Learning on Image Denoising: An overview
Arxiv
12+阅读 · 2020年8月3日
Small-Object Detection in Remote Sensing Images with End-to-End Edge-Enhanced GAN and Object Detector Network
Arxiv
3+阅读 · 2020年4月14日
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
Arxiv
3+阅读 · 2020年3月24日
1D Convolutional Neural Networks and Applications: A Survey
Arxiv
5+阅读 · 2019年5月9日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
MDU-Net: Multi-scale Densely Connected U-Net for biomedical image segmentation
Arxiv
10+阅读 · 2018年12月4日
A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation
Arxiv
5+阅读 · 2018年7月6日
Learning Rich Features for Image Manipulation Detection
Arxiv
9+阅读 · 2018年5月13日
Mask R-CNN
Arxiv
7+阅读 · 2018年1月24日
Convolutional Sequence to Sequence Learning
Arxiv
4+阅读 · 2017年7月25日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
图像修复
超分
SRGAN
OpenMMLab
SR
生成模型
相关VIP内容
【复旦大学】从视觉到文本: 图像描述生成的研究进展综述
专知会员服务
78+阅读 · 2020年9月10日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
54+阅读 · 2019年11月20日
图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
【伯克利博士论文】从自然语言中学习(附106页pdf全文下载)
专知会员服务
50+阅读 · 2019年10月26日
【ICIP 2019 Tutorials】图像到图像的转换(Image-to-Image Translation),英伟达研究员Ming-Yu Liu
专知会员服务
25+阅读 · 2019年8月10日
热门VIP内容
开通专知VIP会员 享更多权益服务
《人类-航空/航天机器人协作网络中的动态覆盖控制和估计》177页
《数字目标定位:人工智能、数据和军事情报》
从俄乌战争中汲取的地理空间情报教训
《国防和国家安全中的战术边缘物联网》最新45页
相关资讯
【ICME2019】智能图像视频编辑,北大教程,400多页PPT
专知
11+阅读 · 2019年7月14日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
图像分割最新资料汇总(语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…)
人工智能前沿讲习班
144+阅读 · 2019年3月15日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
手把手教你用OpenCV和Python实现图像和视频神经风格迁移(代码)
新智元
9+阅读 · 2018年9月2日
无需GPU,只用OpenCV和Python实现图像和视频的风格迁移
论智
8+阅读 · 2018年8月29日
CVPR 2018 |“寻找”极小人脸
极市平台
14+阅读 · 2018年7月11日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
相关论文
Deep Learning on Image Denoising: An overview
Arxiv
12+阅读 · 2020年8月3日
Small-Object Detection in Remote Sensing Images with End-to-End Edge-Enhanced GAN and Object Detector Network
Arxiv
3+阅读 · 2020年4月14日
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
Arxiv
3+阅读 · 2020年3月24日
1D Convolutional Neural Networks and Applications: A Survey
Arxiv
5+阅读 · 2019年5月9日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
MDU-Net: Multi-scale Densely Connected U-Net for biomedical image segmentation
Arxiv
10+阅读 · 2018年12月4日
A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation
Arxiv
5+阅读 · 2018年7月6日
Learning Rich Features for Image Manipulation Detection
Arxiv
9+阅读 · 2018年5月13日
Mask R-CNN
Arxiv
7+阅读 · 2018年1月24日
Convolutional Sequence to Sequence Learning
Arxiv
4+阅读 · 2017年7月25日
大家都在搜
无人艇
大模型
大型语言模型
全面综述
ETHZ博士论文
PRML
MoE
智能推荐
汽车智能化
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top