弱监督视觉理解笔记(VALSE2019)

2019 年 4 月 23 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

作者 | Hugh（深度学习爱好者）

来源 | Hugh技术分享

https://mp.weixin.qq.com/s/CuIibeYvpW2dZTVSRXP4rg

本文是来自4月11日~14日在合肥举办的VALSE2019视觉与青年学者研讨会，参会作者对大会workshop：弱监督视觉理解的总结笔记。

01引言

问题导读：

1.弱监督视觉理解简介?

2.Valse19报告中弱监督的新方法有哪些？

3.弱监督学习技术给你的启发？

02弱监督视觉理解简介

监督学习与弱监督学习：

监督学习技术通过学习大量训练样本来构建预测模型，其中每个训练样本都有一个标签标明其真值输出；
弱监督分类：不完全监督：只有一部分训练数据具备标签；不确切监督：训练数据只具备粗粒度标签；以及不准确监督：给出的标签并不总是真值；
弱监督的含义：弱监督给出的标签会在某种程度上弱于我们面临的任务所要求的输出。

研究背景：

数据集很重要：现阶段CV领域的大多数问题还是依赖于特定的数据集进行训练和测试评估的；
标注成本很大：高质量额图像标注为我们进行图像理解提供了方便，但获取精确的标注是非常困难和耗时的；
研究方法难选：深度神经网络共性技术，视觉基元属性感知。

03弱监督技术报告汇总

陈明明：面向开放环境的自适应视觉感知

Motivation：

当前各种深度网络的进步得益于网络多尺度信息综合能力的提升

报告主要内容：

富尺度空间神经网络架构：多任务协同求解，鲁棒性提高；
显著性物体检测：预设基元属性感知能力，减少数据依赖；
互联网大数据自主学习：减少人工标注，自动学习。

富尺度空间神经网络是什么？

网络结构：一个富尺度空间的深度神经网络通用架构，在每一个基础网络上，对图像进行深度层上的分割，然后通过不同尺度的处理再结合到输出。
学习目标：富尺度指代通过CNN学习图像的位移、平移、形变等特性；
设计基准：金字塔结构；空间池化；残差学习。

显著性物体检测分类：

RGBD显著性物体检测
边缘检测
视觉注意力机制若监督语义分割
通用视觉基元属性感知方法分类
互联网大数据自主学习：减少人工标注，自动学习

黄圣军：Cost-Sensitive Active Learning

Active Learning：主动学习

为了能够使用较少的训练样本来获得性能较好的分类器，主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度; 制定标准是主动学习的重点。

关于标注代价

黄老师提到标注代价的定义，并说明标注代价并不等于标注的数据量的多少，因为不同数据的标注代价可能不同，比如标注一个蛋白质的功能的代价可能因为需要专业人才而很高;

label的标注代价和缺失feature的标注代价

通过在主动学习中设置一些query的机制，来实现标注代价的最小化的同时模型效果的最大化。

参考论文

【2018-KDD】Cost-Effective Training of Deep CNNs with Active Model Adaptation
【2018-KDD】Active Feature Acquisition with Supervised Matrix Completion

魏秀参：细粒度图像分析

报告指引：

1）细粒度图像分析领域；

2）细粒度图像检索现状；

3）细粒度图像识别现状；

4）细粒度图像分析相关任务；

5）细粒度图像分析发展展望。

细粒度基础：

细粒度图像分析的关键：找到细粒度物体的Keypoints，可以利用这些关键部位的不同，进行检索、识别等针对性的细粒度分析。
Content Based Image Retrieval（CBIR）是计算机视觉领域中关注大规模数字图像内容检索的研究分支。
图像检索的两个场景：1）文字搜图；2）以图搜图。

细粒度图像分析经典数据如下：

类别	名称	图像数量	细粒度分类
鸟类数据集	CUB200-2011	11788	200
狗类数据集	Stanford Dogs	20580	120
花类数据集	Oxford Flowers	8189	102
飞机数据集	Aircrafts	10200	100
汽车数据集	Stanford Cars	16185	196

提出方法：Selective Convolutional Descriptor Aggregation-SCDA

SCDA与与Mask-CNN的不同
在图像检索问题中，SCDA不仅没有精细的Part Annotation，无从获取图像级别标记；
该算法目标：在无监督条件下依然可以完成物体的定位，根据定位结果进行卷积特征描述子的选择，对保留下来的深度特征，分别做以平均和最大池化操作，之后级联组成最终的图像表示。

提出HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation（该论文研究意义大，建议深入研读）

论文链接：http://cn.arxiv.org/pdf/1904.04514.pdf

代码链接：https://github.com/HRNet/HRNet-Image-Classification

创新点：

1. 不是像大多数现有解决方案那样串行连接, HRNET并行连接高分辨率到低分辨率的子网络；

2. 大多数现有的融合方案都将低层和高层的表示集合起来。相反，HRNET使用重复的多尺度融合；

3.效果好：在语义分割、目标检测、人脸特征点检测，HRNet效果有明显提升；

叶齐祥：从弱监督到自学习视觉目标建模

叶老师分享打标签方法，只给目标物体上画一条线，只在目标物体上打一个点，仅仅告诉模型一系列图片中包含什么而不给位置，让模型自己学习找到这些目标。

基于pre-trained model弱监督学习的主要方法：使用各种预训练模型的强大的特征提取能力，进行弱监督的目标检测。

一个有趣的思考：

作者尝试直接使用预训练模型，找原图使得预训练模型最后一个卷积层激活较大的区域，然后发现在Image-Net上预训练模型虽然有很好的分类能力，但最后的激活层往往来自于原图中最有判别能力的部分而不是全部物体。举例：虽然预训练模型能将狗分类成狗，但是使得最后输出“狗”这个维度的激活最大的可能仅仅是狗头、狗腿这些比较discriminative的区域，而不是整个狗的instance segmentation，于是作者提出，将原图中最disciminative的区域擦掉（erase），然后再训练模型，如此反复，直到模型最后的激活来源于整个狗。

-End-

*推荐阅读