【AIDL专栏】梅涛：深度视觉理解（附PPT）

2018 年 5 月 25 日 人工智能前沿讲习班

AIDL简介

“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办，旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向，并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者，预期转行AI领域的爱好者均具有重要的意义。

2018年AIDL活动正在筹备，敬请关注获取最新消息。

导读

中国人工智能学会举办的第四期《人工智能前沿讲习班》专题为“智能感知与交互”。微软亚洲研究院主管研究员梅涛博士作了题为《深度视觉理解》的报告。本文根据梅涛博士的报告内容整理发布，对相关领域研究工作具有长期价值。

「关注本公众号，回复"梅涛"，获取完整版PPT」

讲者简介

梅涛，国际模式识别学会会士，美国计算机协会杰出科学家，中国科技大学和中山大学兼职教授博导，现任京东AI研究院副院长。主要研究兴趣为多媒体分析、计算机视觉和机器学习，发表论文 100余篇（h-index 43），先后10余次荣获最佳论文奖，拥有40余项美国和国际专利（18项授权），其研究成果10余次被成功转化到微软的产品和服务中。他的研究团队目前致力于视频和图像的深度理解、分析和应用。他同时担任 IEEE 和 ACM 多媒体汇刊（IEEE TMM 和 ACM TOMM）以及模式识别（Pattern Recognition）等学术期刊的编委，并且是多个国际多媒体会议（如 ACM Multimedia, IEEEICME, IEEE MMSP 等）的大会主席和程序委员会主席。

一、人工智能和计算机视觉

人工智能是当下很火的概念，很多人都在学习人工智能，很多学校也开设了人工智能学院。学术界一直在讨论人工智能能做什么，不能做什么。对于来自于学术界或者企业界的技术人员来说，所研究的问题十几年前就已经存在，到现在为止还没有得到完整的解决。举个例子，最初我们敲钉子是用锤子，现在人工智能、深度学习兴起之后，我们换了一把好点的锤子，把钉子往里敲了一点，但是仍未完全敲进去。很多人都希望人工智能能找到能把钉子完全敲进去的好锤子，找不找得到还不好说。

深度视觉理解中的深度有两层含义。首先，深度视觉理解可以借助深度学习这个工具。要注意人工智能与深度学习并不是一个概念，深度学习只是人工智能中一个非常小的部分。另外，深度是指对视频或者图像内容的理解可以达到很深的地步。

对于计算机视觉，我们希望计算机并不只是理解，还要会描述，这是一个蛮难的事情。计算机视觉相当于给人工智能镶上一个眼睛，希望它能听，能看，能写，能说。计算机视觉有很多研究主题，我们今天主要讲计算机视觉涉及的几点问题。

计算机视觉里面一些经典的方法，在最早的时候，如果要做视觉理解，先检测图片的关键点，然后提取特征，使得边缘的线能够组成一个特征向量，最后把特征向量放在模型里面去学习。SIFT是一个成功的例子，这篇论文引用已经超过了五万次，还是很惊人的。到了2010年以后，随着Image net的出现，深度学习变成了主流。深度学习需要一些条件，第一个条件是大量人工标注好的数据，另外需要很强的算法，最后还需要一个大规模的能够并行计算的GPU。

如果把问题按照粒度从小到大排列，可以分为语义分割，目标检测，图片分类，图像标注和storytelling几个层级。语义分割需要理解到确定每个像素属于哪一类，要解决如此难度的问题，需要大量标注，每个像素都要确定其类别，其工作量非常大。目前学术界里面最大的数据集也就20个类目。高一级是目标检测，目标检测不关心每个像素的类别，只关心能不能把目标检测出来。如果不关心目标的位置，只关心图片中具体有哪些目标，就是图片分类。粒度再粗一些，将图片对应标签连成一句话，就是所谓的图像标注。最后一级叫storytelling，能够自动基于图片序列生成一个故事。

就目前技术所达到的水平来说，深度学习可以接近三岁小孩的水平。三岁小孩还非常不懂事，让他做图像分割，不一定做的比机器好。我们希望机器人视觉能力可以达到五岁小孩的水平，比如可以看图说话，可以看图回答一些简单的问题。今天这个问题不正在解决。

二、细粒度图像与视频理解

传统分类的目标类别有很多，比如可能有二十种花，三十种鸟。但是在真实场景中，花的种类至少有250K，鸟的种类至少有50K。在如此巨大的差距下要求机器理解真实的世界，就需要它拥有更多的智能，能识别出更精细的物体类别。

传统的图像分类网络并不能实现细粒度的图像分类，这里面有两个关键点：在大类中识别小类时，需要知道这个小类和其他小类的区别，主要是一些局部特征；当有了类别之后，需要学习到最好的特征。

2010年Imagenet已经火起来了，但是把CNN用到视频上始于2014年。当时的想法很直接，就是将视频进行截帧，按照图像的处理方法进行处理。这种做法丢失了时间信息，效果当然不理想，于是怎样将时间信息整合进网络成为后来的研究重点。2014年主要有两个工作，第一个工作的亮点在于将视频视为连续帧的集合进行分类，第二个工作对视频序列中每两帧的密集光流予以特别关注，这两个工作都取得了不错的结果。2015年出现了2DCNN+LSTM，它的亮点在于用LSTM对CNN最后一层的激活在时间轴上进行整合。但是以上工作的准确率提高都不多，于是有人想到在做卷积的时候将卷积核扩展到时域，这就是3D CNN。此后的Temporal Segment Networks则不再从相邻帧中采样，而是从整个视频中稀疏取帧，其效果也有提高。尽管3D CNN的效果很好，但是他有一个缺点就是模型太大，为了解决这个问题，就提出了Pseudo 3D ResNet，基本思想是利用一个1*3*3的二维空间卷积和3*1*1的一维时域卷积来模拟常用的3*3*3三维卷积。

三、 Vision to Language

vision to language的用途非常广泛，比较有代表性的有机器视觉，协助盲人出行，视频异常行为警告，聊天机器人等。Vision to language有三个大的方向，分别是image captioning，video captioning和video commenting。

给出一张图片，用一段文字描述它，就是image captioning。Image captioning的难点之一是如何让机器理解图片，难点之二是理解之后如何输出人类语言。解决问题的思路有三种，一种是search-based方法，一种是template-based方法，第三种是sequence learning-based方法。

Search-based方法通过从句子库中选择语义上最相似的句子来为图像生成句子，有时直接复制视觉上相似的图像的句子。由于所有句子来自现有的人类生成的句子，因此这个方向确实可以实现人类层面的描述。然而，收集现有句子难以使句子库做到足够大，而且这种方法不能产生新颖的描述。

Template-based方法首先将每个句子片段与从图像检测到的单词对齐，然后用预定义的语言模板生成该句子。显然，生成的句子高度依赖于模板，并且总是生成具有句法结构的句子。

然而这两种方法效果都不甚理想，他们的问题在于只有足够大的数据库才能保证图片找到对应的句子或模板。Sequence learning-based应用而生。与template-based和search-based的模型不同，sequence learning-based的模型旨在学习视觉内容和文本句子在公共空间中的概率分布，以生成具有更灵活语法结构的新句子。

Image Captioning方面的工作可以总结为“Image Captioning with X”，其中的 X 可以是 Visual Attention，Visual Attributes，Entity Recognition，Dense Caption 和 SemanticAttention等模块。 Visual attention希望每个词对应一个物体；visual attributes将被识别出的物体视为句子成分纠正训练；entity recognition可以识别名人或其他实体；dense caption对重复对象中的每一个都可以用一句话来描述。

与image captioning相似，做video captioning也三种方法，第一种是search-based方法，这个方法可以和image captioning做直接比较；第二种是language model-based方法，它将视频中的一些动作作为句子的动词，加上语法结构，就能生成结果；第三种方法，sequence leaning-based方法将每个关键帧都用独立的CNN做一次处理，得到高维向量。

同样与image captioning类似，“Image Captioning with X”也可以有temporal attention，spatiotemporal attention，visual attributes和dense caption等模块。

Q&A

提问：微软小冰可以根据图像的具体内容来创作，它是否具备一定的艺术价值、美感？

梅涛：小冰最初学的是1920年的现代诗，当时没有找人评价，但是出版诗集的时候，选的139首诗都是通过专家诗人选出来的。小冰写诗问世之后，一两天内有数百万的调用，说明用户还是喜欢的。

提问：在计算机音乐领域，我们用350条规则模拟巴赫的曲子，做成一个自动生成机器，普通听众听起来像模像样，但是真正的音乐家觉得曲子没什么深度。艺术美感抽象程度比较高，应该如何去量化？

梅涛：创作一定要期望，AI能取代低端劳动力，但是要取代有艺术感或创作性的美感，目前还是不现实的。我的观点，AI做有创造力的事情还是有限制，取代不了人。

感谢AIDL志愿者张志鹏协助整理！

志愿者持续招募中，有意者联系微信号"AIDL小助手(ID:must-tech)"

历史文章推荐：

AI综述专栏 | 11页长文综述国内近三年模式分类研究现状（完整版附PDF）

AI综述专栏 | 朱松纯教授浅谈人工智能：现状、任务、构架与统一（附PPT）

【AIDL专栏】熊辉：《易经》如何指导我们做人工智能？

【AIDL专栏】罗杰波: Computer Vision ++: The Next Step Towards Big AI

【AIDL专栏】姚力：基于神经生理信息的智能交互与应用

【AIDL专栏】操龙兵：非独立同分布学习

【AIDL专栏】基于图的RDF知识图谱数据管理[附PPT]

登录查看更多

相关内容

梅涛

关注 0

梅涛博士，京东AI研究院副院长，京东集团技术副总裁，国际电气电子工程师学会和国际模式识别学会会士 (Fellow of IEEE and IAPR)，国际计算机协会杰出科学家。他领导京东人工智能事业部计算机视觉领域的基础研究、技术创新和产品研发，并探索在无界零售、智能物流、云计算、新媒体等领域的应用。加入京东之前，梅涛博士担任微软亚洲研究院资深研究员，其研究成果先后20余次被成功转化到微软的关键产品和服务中。他在多媒体分析和计算机视觉领域发表论文200余篇，先后12次荣获最佳论文奖，并拥有50余项美国和国际专利(其中20余项授权)。他领导的研究团队多次在国际图像、视频、人脸、人体姿态识别和搜索比赛中排名第一。他目前同时担任 IEEE 和 ACM 视觉与多媒体汇刊（IEEE TIP, IEEE TCSVT 和 ACM TOMM）等顶级学术期刊的编委，并且是 2018 年 ACM Multimedia 的程序委员会主席和 2019 年 IEEE ICME 的大会共同主席。他是 IEEE信号处理学会杰出工业演讲者，并且担任中国科学技术大学、复旦大学、香港中文大学（深圳）和韩国延世大学的客座教授。个人主页：https://taomei.me/

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

167+阅读 · 2020年6月30日

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日