会员服务 ·

CVPR 2018 笔记

2018 年 5 月 25 日 计算机视觉战队

CVPR 2018笔记，感谢李光睿的分享，谢谢~

知乎号：https://www.zhihu.com/people/chang-you-li-92/activities

Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 ORAL

zero-shot learning的解释可以详情见郑哲东在知乎中的回答，就是寻求将学习到的特征映射到另一个空间中，从而map到seen及unseen的属性或者label上

这篇文章的主要亮点在于学习了已定义label的同时，学习了latent attribute（隐含属性）。

已有方案的drawbacks：

1，在映射前，应当抽取image的feature，传统的用pretrain model等仍不是针对zero-shot learning (ZSL)特定抽取特征的最优解。

2，现有的都是学习user-defined attribute，而忽略了latent representation

3，low-level信息和的空间是分离训练的，没有大一统的framework

本文便是对应着解决了以上问题。

notation：

FNet：抽取img的feature；

ZNet：定位最discriminative的区域并将其放大

ENet：将img feature映射到另一个空间

下面我们先介绍各个子网络

FNet（The Image Feature Network）

这部分直接借用了已有的VGG19、GoogleNet，不细讲

ZNet（The Zoom Network）

这里的目的是定位到能够增强我们提取的特征的辨识度的region，这个region同时也要与某一个我们已经定义好了的attribute对应。

ZNet的输入是FNet最后一个卷积层的输出。

在这里运用某个已有的激活函数方法，将我们定位好了的region提取出来，即将crop操作在网络中直接实现。

然后，将ZNet的输出与original img做element-wise的乘法，最后，将region zoom到与original img相同的尺寸。

如图，再讲该输出输入到另一个FNet（第一个Fnet的copy）

ENet（The Embedding Network）

这里作者提出了一个score用于衡量img feature和attribute space的相似性（兼容性）

Enet将img feature映射到2k dim的空间中，1k是对应于已经定义了的label，并用softmax loss。

另1k则是对应潜藏属性，为了使这些特征discriminative，作者使用了triplet loss。

Synthesizing Images of Humans in Unseen Poses

pose 合成

网络的输入是original img， original pose， target pose，并预设original img和target img背景一样，人是同一个。

首先前后景分离，然后针对前景（即人），针对身体的不同部分做细致的segment

Pose Representation

人身体的pose用14个dots表示，在dots处还加入了高斯噪声，有利于regularization，且有利于网络更快学习到这个特征。

Source Image Segmentation

分前后景，前景又对应着已经定义好了的身体部分（10个）。

采用u-net，输入是original img和pose的concat，输出是各个部分的mask。

Foreground Spatial Transformation

这一过程则是将分割后的segment和target pose一一对应起来，并作相应的旋转，放缩等。

Foreground Synthesis

前一阶段我们已经根据target pose将各个segment位置变换好了，简言之，就是把人的是个部分拆开来，然后根据目标姿势重新组合，这一步则是将其彻底的合成，使其具备和真实照片一眼的一致性。

也是用的u-net，输入为target pose和已经segments，输出时foreground和target mask。

Background Synthesis

这部分则是处理新的target之间的孔洞，无新意。

Loss Function

两部分组成

VGG LOSS: 将VGG19的前16层的输出concat并计算L1距离

传统的GAN loss。

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

本文解决了GAN生成高分辨率突破的问题，分辨率达到了2048*1024，方法精细，值得深入来看。

先来看generator:

如图言，中间部分的G1在低分辨率情况下训练，然后在前后又分别加上G2，注意左边部分的G2的输出和G1的输出concat之后作为右边G2的输入。

再来看D:

这里的dsicriminator是multi-scale，有着三个针对不同尺寸的D，三个尺寸分别是原尺寸，二分之一，四分之一。

放缩尺寸的理由不难理解，receptive field大小的问题。

Improved adversarial loss

一句话概括：在D的中间多个层抽取feature map，作为分类和训练依据。

Using Instance Map:

个人认为是本文最inspiring的一点，先放对比图

图胜千言，boundary map一方面更加精细，也对边缘的处理上给出了看起来很理想的解决方案。具体的对比解释可以去文中寻找。

b map的提取不难理解，主要是基于semantic labels。

Learning an Instance-level Feature Embedding

这部分是基于前面提到的instance level信息，做一个精细化的embedding。

在generator的输入中，除了ori img，boundary map之外，还有low-dimensional feature。

为了生成这些low-dim feature，作者又设计了一个标准的encoder-decoder来生成。

在这个encoder训练好之后，还用生成的特征做了一个聚类，从而可以控制生成图片的style。

What have we learned from deep representations for action recognition?

这篇文章就是two-stream模型中间层的可视化方法，换句话说，就是探寻two-stream模型学到了怎样的时空信息。

生成总共分为两个步骤，详情如图：1，计算出输入的偏导，将计算出来的梯度用学习率scale并加到当前输入上。

Activation maximization

本文还提到了两个正则方法：

1，防止过大的值

2，限制低频信息

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

专知会员服务

79+阅读 · 2020年3月3日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

近期必读的9篇CVPR 2019【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

62+阅读 · 2020年1月10日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知会员服务

58+阅读 · 2020年1月10日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

CVPR 2018 |“寻找”极小人脸

极市平台

14+阅读 · 2018年7月11日

CVPR 2018 论文简单笔记（部分，待更新）

计算机视觉战队

6+阅读 · 2018年6月20日

RASNet 论文笔记

统计学习与视觉计算组

10+阅读 · 2018年4月26日

CVPR 2018值得一看的25篇论文，都在这里了 | 源码 & 解读

PaperWeekly

6+阅读 · 2018年4月26日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

Mask R-CNN 论文笔记

统计学习与视觉计算组

11+阅读 · 2018年3月22日

【干货】卷积神经网络CNN学习笔记

机器学习研究会

15+阅读 · 2017年12月17日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

论文笔记：PTAV

统计学习与视觉计算组

3+阅读 · 2017年9月23日

卷积神经网络(CNN)学习笔记1：基础入门

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月16日

Clustered Object Detection in Aerial Images

Arxiv

5+阅读 · 2019年8月27日

Image Captioning: Transforming Objects into Words

Arxiv

7+阅读 · 2019年6月14日

GANE: A Generative Adversarial Network Embedding

Arxiv

5+阅读 · 2018年5月21日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

4+阅读 · 2018年3月8日

Interpretable Counting for Visual Question Answering

Arxiv

6+阅读 · 2018年3月2日

SimplE Embedding for Link Prediction in Knowledge Graphs

Arxiv

7+阅读 · 2018年2月13日

Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions

Arxiv

9+阅读 · 2018年1月27日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification

Arxiv

7+阅读 · 2018年1月10日

Progressive Growing of GANs for Improved Quality, Stability, and Variation

Arxiv

3+阅读 · 2017年11月3日

VIP会员

CVPR 2018 笔记

CVPR 2018笔记，感谢李光睿的分享，谢谢~

Discriminative Learning of Latent Features for Zero-Shot Recognition

FNet（The Image Feature Network）

ZNet（The Zoom Network）

ENet（The Embedding Network）

Synthesizing Images of Humans in Unseen Poses

Pose Representation

Source Image Segmentation

Foreground Spatial Transformation

Foreground Synthesis

Background Synthesis

Loss Function

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Improved adversarial loss

Using Instance Map:

Learning an Instance-level Feature Embedding

What have we learned from deep representations for action recognition?

Activation maximization

相关内容

知识荟萃

更多