活动 | 旷视「智见AI」SpringCamp圆满结营（附视频回放）

2019 年 5 月 16 日 PaperWeekly

5月11日，由中国计算机学会计算机视觉专委（CCF-CV）主办，清华大学自动化系与旷视承办的“智见AI”SpringCamp顺利召开。本次训练营邀请了人工智能领域学术界和产业界的专家、学者们就“物体检测”与“深度神经网络模型设计”两个主题发表了8篇学术分享报告，吸引了300余名相关从业者与研究人员。

人工智能作为最具颠覆性和变革性的技术之一，正以不可阻挡之势席卷全球，不断渗透进社会生产生活的各个方面，推动着时代滚滚向前。但需知，从底层框架的更新迭代到整套解决方案的商业化落地都有赖于基础学术研究的进展与突破，无论新理论的提出抑或旧问题的攻克，都令这股力量更强大——它是AI浪潮涌动的原动力，是预知未来的风向标。

“智见AI”SpringCamp学术训练营由CCF-CV发起，旷视与清华大学承办，旨在打造一个交流分享最前沿人工智能领域思想和技术的平台，通过邀请顶尖大咖分享最新的研究成果，联合产业界与学术界，为各大高校的青年学术人才以及行业相关研究人员提供前沿技术交流与学习的机会，促进AI人才的培养、推动技术的进步及产学研的落地。

学术训练营活动现场

会聚前沿年青骨干呈现关键研究新进展

出席本次训练营的主要嘉宾有：

微软亚洲研究院、计算机视觉组资深研究员代季峰博士
中科院自动化所张士峰博士
旷视研究院Base Model组负责人张祥雨博士
华中科技大学电信学院教授、副院长白翔
Momenta高级研发工程师胡杰
旷视研究院Detection组负责人俞刚博士
清华大学自动化系助理教授黄高
南开大学教授程明明

活动吸引到了300余名来自人工智能领域学术界与产业界的研究人员与相关从业者参与，内容涵盖8场权威主题报告，1个开放式圆桌讨论。

旷视首席科学家、研究院院长孙剑首先在开幕致辞中对所有与会嘉宾表示欢迎，并简要阐述了当前计算机视觉技术发展现状与举办本次学术交流会的目的。随着深度学习的引入与应用，业内出现了新的机遇与挑战，如何取得新突破一方面有赖于学术界的努力，另一方面，面对理论困难与应用需求的双重夹击，产业研究中AI技术与行业的深度融合同样能够提供新视角。因此，在这样的背景下，人们需要“分享各种新的方法和新的思想，深入理解问题、深刻弄清每个细节，向前一步步推动计算机视觉理论与应用的发展”。

旷视首席科学家、研究院院长孙剑致开幕辞

随后8位专家先后做出分享，内容涵盖当前在“物体检测”与“深度神经网络模型设计”领域最火热的深度神经网络中的几何形变建模技术、物体检测算法的对比探索及展望、高效轻量级深度模型的研究与实践、面向快速推理的卷积神经网络、不规则文字检测与识别、视觉注意力机制在模式设计中的发展与应用、目标检测领域的新问题及方向、开放环境下的自适应视觉感知等方向。

活动现场精彩报告

代季峰
报告题目：卷积神经网络中的几何形变建模

内容大纲：

在视觉识别任务中，一个重要的挑战是如何恰当处理和建模几何形变，包括尺度、姿态、视角以及物体部件的移动等。从特征工程的时代开始，一系列著名的算法就被开发出来以尝试解决这个问题，包括SIFT，DPM等。但受限于它们的特征表达能力和局限的变性建模能力，其性能受到了很多的限制。在深度学习的时代，网络特征的表达能力大大的超出了之前手工设计的特征。但是，现有的网络模块依然难以对几何形变进行有效的处理和建模。本次talk中将会介绍在深度神经网络中的几何形变建模技术，它们能够大幅度的增强深度神经网络的几何建模能力，在各种识别任务中取得巨大的性能提升。

张士峰
报告题目：物体检测算法的对比探索以及展望

内容大纲：

目前基于深度学习的物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，我们对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、ISRN、RetinaFace等系列算法。此次分享将先概括地介绍物体检测算法，接着分享我们自己一系列相关的工作，最后对物体检测的发展进行讨论展望。

张祥雨
报告题目：高效轻量级深度模型的研究与实践

内容大纲：

深度基础模型在现代深度视觉系统中居于核心地位。在实际应用中，受应用场景、目标任务、硬件平台等的不同，经常会对模型的执行速度、存储大小、运算功耗等进行限制。因此，如何针对各种不同的情景设计“又好又快”的模型，成为深度学习系统实用化的重要课题。

本次讲座主要围绕实用模型设计的两个常用技术：轻量级模型设计和模型裁剪，重点介绍本团队在高效深度模型领域的科研成果和实践经验。分享内容包括ShuffleNet v1/v2系列，以及自动化模型设计、模型搜索等最新研究成果。

白翔
报告题目：不规则文字检测与识别

内容大纲：

场景OCR技术是一种通用的文字识别技术，已经在工业界产生了广泛的落地。近年来，学术界开始将注意力转向不规则文本的检测与识别技术研究。本次报告介绍了针对不规则文本检测与识别一些代表性方法，例如ASTER，Mask Textspotter，TextField等机近期成果，这些方法在不规则文字检测与识别任务中取得了显著的性能提升。

胡杰
报告题目：视觉注意力机制在模式设计中的发展与应用

内容大纲：

机器学习中的注意力模型通过模拟人类视觉的注意力机制，从而在大量信息中筛选和聚焦对任务重要的信息，减少来自不重要信息和噪声的干扰。近年来，注意力机制被引入计算机视觉、自然语言处理等诸多领域，并在不同任务上取得显著的性能提升。本次报告将围绕注意力机制在计算机视觉的应用，概括总结如何在神经网络(尤其是卷积神经网络）中结合注意力机制增强网络表达能力，从而实现有效提升系统性能的目标。

俞刚

报告题目：Beyond RetinaNet and Mask R-CNN

内容大纲：

物体检测是计算机视觉中一个非常重要但同时也是很基础的技术环节。在RetinaNet以及Mask RCNN出现之后，物体检测领域在框架上面已经比较成熟，但是从技术落地角度来考虑，还有很多细节问题需要攻克。本报告将从六个维度分别来展开目标检测领域的一些新的问题以及方向。具体来讲，这六个方向是Backbone, Head, Scale variation, Batch size, Crowd，pretraining。这些技术点的攻破以及成果，会对物体检测领域的实际落地会有很大推动作用。

黄高
报告题目：面向快速推理的卷积神经网络结构设计

内容大纲：

近几年，随着深度学习从实验室走向越来越多的实际应用，人们对模型的关注不仅仅在其精度方面，同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中，神经网络结构创新始终是最为有效的方式之一。本报告将简单回顾卷积神经网络的几种典型结构，分析有助于提升模型效率的设计技巧与原则。与结构设计密切相关的，还有神经网络的推理方法。报告将从自适应推理的角度，介绍如何通过合理的结构设计，使模型能够针对不同的样本分配相应的计算量，达到降低平均计算开销的目的。

程明明
报告题目：开放环境下的自适应视觉感知

内容大纲：

现有视觉学习技术通常依赖于大规模精确标注的训练数据。在典型实验室环境下设计和训练的人工智能模型，在行业应用场景变换时，容易导致系统性能急剧下降。本报告将从弱监督视觉理解的角度，介绍在降低模型对特定应用场景数据依赖方面所开展的一些研究工作，主要包括如何学习一些通用属性，并利用这些通用属性构建弱监督检测与分割模型。

清华大学自动化系副教授、博士生导师鲁继文（左一）主持Panel环节

结语

作为一个理论与应用实践高度结合的科学研究领域，人工智能的形象从其诞生时代小说家笔下的神秘形象逐渐具象化，渗透进社会生活、生产的方方面面。它早已不囿于实验室的理想环境、拘泥于竞赛的排行榜，而是在为各行各业的先行者们创造实际的商业价值和社会价值，成为创新与变革的助推引擎。本次SpringCamp的顺利举办是旷视对自身产学研体系建设新模式的有益探索，也是作为产业界代表反哺学术界的又一次成功尝试，对推动学术界与产业界的良性交流具有重要意义。

传送门

关注旷视研究院获取本次活动完整视频链接👇