让机器“看山是山”：脑启发的视觉计算|VALSE2018之五

会员服务 ·

让机器“看山是山”：脑启发的视觉计算|VALSE2018之五

2018 年 5 月 14 日 深度学习大讲堂 张兆翔

编者按：人生之三境界的第一层，“看山是山，看水是水”，本质上展示了人“看见”的过程，以及思绪与理解在这一过程中所起的作用。

“看见”，对于人类而言，似乎是一个很简单自然的事情，其实则不然，从地球上第一个长出眼睛的生物三叶虫，走到今天的人类视觉，经历了五亿四千万年的漫长旅程。人类获得今天的视觉能力，是大自然长期进化的结果，大脑中三分之一的皮层是与视觉相关的。

因此人的视觉任务，本质上是人脑对外界视觉信号作出反应的过程，那么，研究人脑的工作机理，是否能够为计算机视觉提供一些启发，让机器“看山是山”呢？基于此，学术界开展了脑启发视觉计算领域的研究。那么过去一年中，在这一领域都取得了哪些成绩呢？

今天，来自中科院自动化所的张兆翔研究员，将带着大家回顾，脑启发视觉计算在2017年的关键进展。

文末，大讲堂特别提供文中提到所有参考文献的下载链接。

所谓脑启发的视觉计算就是从生物大脑的神经结构、认知机制、行为特性等多个层面寻求启发，引入神经科学、认知科学与心理学的先进成果，提出新的视觉计算模型与方法，克服当前模型与方法局限性，提升视觉计算的性能（准确性、鲁棒性、自适应性、可泛化性、可解释性等）。脑科学与视觉计算可以从如下两个方向加一结合，一是基于脑科学机制进行视觉计算的启发建模，二是现有服务于视觉计算的神经网络模型为脑启发机理提供分析和借鉴。

历史上计算机视觉的发展与脑启发的引入密切相关。很多脑机制的引入都为计算机视觉的突破提供了借鉴和创新源泉。

以Gabor为代表的局部特征描述子是借鉴脊椎动物视觉皮层感受野的特性而设计的，在许多计算机视觉任务上取得了很好的性能。

显著性注意机制从人类视觉感知的显著性注意机制中获得启发，在当前计算机视觉中的检索和检测任务中均取得了很好的性能。

从Neocognitron到HMAX再到当前流行的深度学习方法，都借鉴了大脑中的特征分层和处理机制。当前的主流深度学习方法甚至在识别、分割、检测等任务上取得可以媲美人类的性能。

机器学习专家Tom Mitchell在2017年的全球互联网大会上进一步强调了脑科学与机器智能相互交叉与借鉴的重要性。

下面主要从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。

在结构层面上，Boyn等人提出人工神经突触建模与硬件化方法。该方法利用神经元突触强度分布刻画记忆，通过典型的STDP实现学习，在无监督学习问题上验证了人工神经突触的可行性和先进性。这一研究为后续开展类脑器件研究奠定了坚实基础。

受人脑感知物体方式的启发，Hinton等提出了一种新的神经元结构Capsule。我们都知道现有卷积神经网络方法需要maxpooling操作。该操作将图像中不同基元间的结构关系完全摒弃。即便同一个人的脸，鼻子、眼睛换一个奇怪的顺序以后，maxpooling的结果也一模一样。这与人类视觉感知物体的方式有显著差别。

为克服上述缺陷，Hinton等提出了新的Capsule网络结构。Capsule可以看成一种新的神经元模型。 Capsule将原来神经元结构标量的输入输出转化为向量的输入和输出，并利用这些向量存储特征的不同属性，进而通过动态路由机制实现从底层到顶层的学习。该种网络结构更符合人类感知物体的方式，且具有举一反三的能力。CapsuleNet在一些视觉任务上虽然没有取得比CNN更好的性能，但作为一个尝试去探索有别于当前深度网络的新模型与新方法具有重要的研究意义。

在结构层面上我们课题组也进行了一系列探索。我们都知道现有卷积神经网络往往都只有一种神经元类型，但人脑中却包含多种。受此启发，我们引入多种神经元类型，并通过自主学习与选择，探索兴奋型神经元和抑制型神经元在相关任务上的有效结合。

我们的模型在不同任务上都获得了比单种神经元模型更好的性能。这些结果验证了模型中多种神经元的有效性，是进一步挖掘人工神经网络与生物神经网络联系的重要切入点。

在功能层面上，《Science》报道了一个概率生成模型，用于验证码识别。验证码识别是典型的可以测试机器视觉性能的模型，在现实中往往用于区分机器与人。现有深度神经网络往往只有前馈网络，而没有推理。该工作受系统神经科学的启发，引入递归皮试网络（RCN），以统一的框架实现验证码的检测、分割与识别。

RCN模型有前馈过程，有反馈过程。通过不断迭代，使得前馈和反馈同时进行，最后很好地实现验证码的识别，即使对不同形状以及噪声遮挡下的验证码依然可以获得很好的识别性能。RCN能够模仿人脑中前馈和反馈同时处理的机制，具有很好的可解释性和可泛化性，能取得举一反三的效果。虽然该模型在验证码识别特定任务上取得了比卷积神经网络更好的性能，但也存在显著局限性。该方法往往只能用于一类对基元具有明确定义的问题，而如何将之推广到更一般的感知问题，还有待进一步探索。

现有卷积网络同层神经元之间没有连接，而人脑中神经元之间却相互联系。受此启发，清华大学胡晓林等人提出了一种Recurrent Convolutional Network，实现了同层内神经元的连接。Recurrent Convolutional Network的局限是每个神经元的局部感受野随时间在不断扩大。这不符合生理学事实——人脑当中感受野一定是局部受限的。因此，作者引入一个机制来控制神经元的有效感受野，使其尺寸随内容自动变化。具体做法是在反馈连接上加入一个门控单元，其开闭由前馈信息和反馈信息同时决定，这种模型已经取得当前OCR识别任务最好的效果。

我们课题组最近在功能机制上也开展了一系列探索。我们借鉴人脑中多模态震荡整合机制来实现多模态的有效融合。传统多模态模型分别提取视觉模态和听觉模态特征，通过简单连接实现视听多模态的融合。这种方式虽然简单，但容易造成信息的混叠，往往效果不太理想。我们的研究引入了长短时记忆同步关联与记忆共享表达，通过借鉴人脑当中类似震荡机制的方式，实现视听模态的有效整合。

我们的工作与单模态方法，其他的多模态整合方法相比具有优越性，同时也呼应了神经科学中的多模态震荡整合机制。

在学习机制层面上，自动化所刘成林老师团队提出了原型学习的思想。我们都知道卷积神经网络是通过最后的softmax层实现识别，而softmax层在转换的时候已经固定了类别的个数，因此传统模型处理的识别问题往往都是封闭问题。然而很多视觉计算问题都是开放的，为实现开放环境下的识别，他们通过结构模型的方法，将结构模型识别与统计模型相结合，通过将softmax层替换成原型层，实现了概念发现与噪声拒识，进而实现开放环境下的理解。

人脑往往可以实现连续学习，即人在学习一个任务以后，学习新的任务并不会降低原来任务的性能。而现有的计算机模型却不能实现这样的功能，它们在执行任务1后，再执行任务2时，会直接在任务1的参数基础上进行微调来进行训练。这样使得任务2训练好后，任务1的参数被遗忘。

如何实现连续学习呢？受哺乳动物和人类大脑固化既往获得的技能和记忆的理论启发，Deepmind引入ProgressiveNN, PathNet, EWC来达到连续学习的目标。比如针对新的任务构建网络时，保留和旧任务相关的网络，path和重要参数，实现旧的任务和新任务之间的共生，使网络具有连续学习的能力。

最后总结一下今天的内容。我们认为脑科学研究从分子到行为多个层面都可以进行探索，是视觉计算理论取得突破的重要创新源泉。现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上仍然存在固有缺陷，需要以脑为参照物加以对照，寻求借鉴。向脑学习，开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。

文中参考文献下载链接为：

https://pan.baidu.com/s/1ptnKvOtatbMqPImBNo0Ngw 密码: x6qr

主编：袁基睿编辑：程一

整理：曲英男、杨茹茵、高科、高黎明

--end--

该文章属于“深度学习大讲堂”原创，如需要转载，请联系 Emily_0167。

作者信息：

作者简介：

张兆翔，博士，中国科学院自动化研究所研究员，博士生导师，中国科学院脑科学与智能技术卓越创新中心年轻骨干，IEEE高级会员，计算机学会YOCSEF委员，计算机视觉专委会委员，模式识别与人工智能专委会委员，人工智能学会模式识别专委会委员。2004年毕业于中国科学技术大学，获得电路与系统专业学士学位；2004年进入中国科学院自动化研究所硕博连读，于2009年获得工学博士学位。2015年任职中国科学院自动化研究所类脑智能研究中心研究员。张兆翔博士一直从事智能视觉监控方面的研究工作，近期进一步聚焦在结合类脑智能和类人学习机制的视觉计算模型，在可用信息建模和基于模型的物体识别问题上开展了系统工作，在面向国家公共安全和智慧城市监管需求的系统平台上取得成功应用，取得显著社会影响和经济效益，近五年来在国际主流学术期刊与会议上发表论文120余篇，SCI收录期刊论文50余篇，担任了ICPR、IJCNN、AVSS、PCM等多个国际会议的程序委员会委员，SCI期刊《Neurocomputing》编委，《IEEE Access》编委，《Pattern Recognition Letters》客座编委、《Frontiers of Computer Science》青年编委和TPAMI、TIP、TCSVT、PR等20余个本领域主流期刊的审稿人。入选“教育部新世纪优秀人才支持计划”、“北京市青年英才计划”和“微软亚洲研究院铸星计划”。