ICCV19 NEUARCH Workshop 个人总结

2019 年 11 月 13 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

作者:熊森特

https://zhuanlan.zhihu.com/p/89007308

本文已由作者授权,未经允许,不得二次转载

ICCV'19 NEUARCH workshop 于2019年10月28日召开,其全称是 Neural Architects Workshop: What have we learned and where are we going? 内容上包含了近年在神经网络架构领域上的最新进展。Barret Zoph,Ross Girshick 等(对我)耳熟能详的大牛也给出了精彩的综述性报告。

这个 workshop 的火爆程度可见一斑

参加NEUARCH workshop一是出于个人研究兴趣,二是有一篇文章的 poster 要在这里展示。从学习到的内容来看确实是不虚此行。

这篇文章主要是我个人参加这个 workshop 得到的一些心得体会,行文中难免有疏漏之处,请见谅 🙏

Neural Architecture Search and Beyond (Barret Zoph)

这个报告是 NAS 的领军人物 Barret Zoph 个人对 NAS 做的综述,回顾了 NAS 技术发展的 motivation,NAS 的框架和典型应用,NAS 的性能问题以及 NAS 在数据增强问题上的扩展。

介绍 Platform-aware NAS

个人感觉比较有趣的是他描述的、用控制器-反馈函数来理解 NAS 设计的视角:控制器可以是 RNN+RL 或者进化算法,反馈函数基于搜索到的网络架构的性能——包括但不限于识别准确度,延迟 (MnasNet),能耗,甚至移动应用安装包的大小(在 MobileNet V3 的设计中提到)——给出进一步搜索的反馈。

(因为 poster session 太累,上午后续的两个 talk 没有仔细听,这里略过了)

Oral Presentation

下午的 session 以三篇 workshop 论文的 oral presentation 开始:

《Understanding the Effects of Pre-Training for Object Detectors via Eigenspectrum》

https://arxiv.org/abs/1909.04021

在听这篇报告时我没有读论文,大意是通过分析 feature map 的 eigenvalue 的分布来理解 object detector 的训练过程,提供了一个与 Rethinking ImageNet Pre-training 不同的视角。

《GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond》

https://arxiv.org/abs/1904.11492

这一篇拿到了 workshop 的 best paper,是对 Non-Local Neural Networks (NLNet)的改进:NLNet 的 attention 机制依经验分析是对 global context 无效的,而使用这篇文章提出的 global context block 既可以有效提取全局信息,又降低了计算成本。

《4-Connected Shift Residual Networks》

https://arxiv.org/abs/1910.09931

这是一篇很有意思的文章:与其使用计算量大的 spatial convolution 来提取 spatial correlation,不如直接在 spatial 维度上做平移、并利用 point-wise convolution 来同时提取 spatial 和 depth correlation。从结果来看,基于 shift 的 ResNet-101 模型的准确度没有多大的损失,但参数量和 FLOP 都有显著下降。

不过现场也有人提问:基于 shift 的 ResNet 的真实运算速度如何?shift 操作虽然相比于卷积减少了很多参数和计算量,但是采用 shift 能否取得真实的加速效果则取决于它的实现能否快过 cuDNN(默认运行环境是GPU)。作者诚恳的表示目前真实运算速度并不快,未来会实现定制的 CUDA kernel。

无独有偶,会议第三天我在 TSM: Temporal Shift Module for Efficient Video Understanding 中也注意到了(沿时域的) shift 操作,作者给出的实现方案是使用 TVM 来编译。不知道这种做法应用在4-shift ResNet 上效果如何?

Capsule Architecture (Sara Sabour)

Sara 介绍了 Capsule Network 在计算机视觉领域的应用,内容上基本涵盖了 Stacked Capsule Autoencoders 的内容。

为什么 capsule 架构对计算机视觉应用有用?Sara 的观点是:capsule 可以 model 物体 part 之间的关系,而这些 part 之间的几何关系是建立 viewpoint-invariant 的 object recognition 模型的关键。对我来说都是很新颖的观点。

From Architecting Networks to Architecting Network Generators (Ross Girshick)

Ross 的 talk 给我的启发是最多的。核心观点是:与其设计单一的网络架构,更重要的是设计网络架构的生成器(generator)。这个想法与 NAS 和 Saining 最新的 Exploring Randomly Wired Neural Networks for Image Recognition 有密切的联系。

首先,Ross 提到,我们在衡量网络性能的时候,已经从 point estimation,即训练评估单一网络架构(如 AlexNet);过渡到 curve estimation,即衡量一组主体架构相同、但调整了深度等参数的网络(如 ResNet)。未来我们可能会倾向于 distribution estimation,即网络生成器可生成的网络的性能的分布。这样做有利于我们通过性能的 landscape 来理解网络架构设计的 通用原则。

网络生成器的形式很简单,本质上是从一组参数 θ 一个网络架构(计算图)的映射 g(θ)这个映射可能是 deterministic 或 stochastic 的(g(θ) 的结果是一个概率分布的 sample)。

NAS 可以看作是一种 stochastic network generator

Randomly wired network 自然是一个 stochastic network generator。它的思想源头可以追溯到早期神经网络设计原则(Turing's Connectionism),ResNet 和 DenseNet 的设计,Connectivity Learning (MaskConnect),以及基于图论的网络设计(Deep Expander Networks)。至于具体 randomly wired network 是如何生成的,在原始的文章中有详细的描述,在这里不加赘述。

在 Q&A 环节,一位听众提出了一个我曾经也很疑惑的问题:一个网络架构之所以表现好,到底是因为它的连接关系上有可以解释的优点,还是因为它只是更容易被优化?Ross 的观点是,这两者其实是密不可分的。这个观点我十分认同:在深度学习理论尚未完善的前提下,将优化视为架构的一部分、优化配置的参数空间视为架构的搜索空间的一部分(参见Neural Optimizer Search with Reinforcement Learning),可能是最为实用稳妥的做法。

结语

神经网络架构在不断的演进,一是随着对特定任务理解的加深,我们可以改善神经网络的建模的方式;二是通过 NAS,或更通用的术语,network generator,在现有的深度学习“理论”的基础上,进一步扩宽网络架构的边界。

对我个人的研究领域来说,最重要的可能是,在设计新的压缩、量化、编译器优化、加速器优化的策略时,要不断检查这种策略是否能经过 curve 乃至 distribution estimation 的考验。

重磅!CVer学术交流群已成立


扫码添加CVer助手,可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
2

相关内容

Barret Zoph目前是谷歌大脑团队的高级研究科学家。之前,在信息科学研究所与Kevin Knight教授和Daniel Marcu教授一起研究与神经网络机器翻译相关的课题。
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Reddit最火!55页博士笔记总结ICLR 2019大会干货
新智元
29+阅读 · 2019年5月11日
计算机视觉这一年:这是最全的一份CV技术报告
炼数成金订阅号
6+阅读 · 2017年11月27日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
16+阅读 · 2018年2月7日
VIP会员
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
16+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员