机器之心报道
编辑:夏亚妹妹、蒋思源
5 月 8 日,由中国科学院学部主办的「脑科学与人工智能」科学与技术前沿论坛召开,本论坛从脑科学如何支持人工智能的发展和类脑智能的态势与发展研讨两个议题切入,邀请了相关领域的院士、教授、研究员和学生等 300 余名嘉宾参会,共同对目前脑科学与人工智能的融合发展现状进行全面深入探讨。
机器之心梳理了本次论坛四场报告的概要,并就报告中提到的「卷积与生物记忆」和「反向传播算法与脑研究」等研究方向进行了拓展解读,同时也精选了专题讨论环节中五个值得关注的问题。
一、四场报告概要
报告一: 大脑可塑性与类脑智能研究
报告人:蒲慕明院士,中国科学院外籍院士、中国科学院神经科学研究所所长、中科院脑科学与智能技术卓越创新中心主任
概述:蒲院士在报告中称,过去 50 年对大脑最重要的理解即因感觉、运动、认知行为相关的电活动对神经元与突触功能和构造的修饰而形成认知行为的改变,即神经系统功能及结构的可塑性;并提出多尺度脑结构与神经网络连接图谱,大脑在基因、蛋白、细胞、环路等层面的运作原理及认知与智力的神经基础能帮助在类脑智能领域构建新的类脑智能计算方法、类脑机器学习算法、类神经计算器件和类脑智能系统。
报告二:人脑视觉认知原理和启发
报告人:何生教授,中国科学院生物物理研究所研究员,脑与认知科学国家重点实验室主任
概述:何生教授的科研方向为人类视觉认知的功能神经机制,其在报告中介绍了认知科学研究中视觉脑的特征和分工,以及视觉认知科学在深度神经网络构建时值得借鉴及对应应用的解读。
报告三:生物启发的模式识别
报告人:谭铁牛院士,中国科学院院士、中国科学院自动化研究所智能感知与计算研究中心主任
概述:报告重点讲解了基于生物机制启发的模式识别与计算机视觉的发展史及现状,比如从局部特征描述子、显著性注意机制、特征的分层处理机制等角度;并以神经元、神经回路、功能区域、学习机制四个层面从微观到宏观展望了受生物启发的可借鉴于网络模块、多模态记忆网络、发育学习、强化学习、迁移学习、知识学习、生成学习、概念学习等模型的模式识别方式。
报告四:自驾驶认知
报告人:李德毅院士,中国工程院院士、总参第 61 研究所研究员、中国指挥和控制学会名誉理事长、中国人工智能学会理事长
概述:李院士在报告中阐述脑认知的内涵应该包含记忆认知、计算认知和交互认知三大块,其中交互认知需要被额外重视。同时,李院士认为在自动驾驶的核心是物化驾驶员在开放条件下对不确定性驾驶环境的认知,重点是物化驾驶员认知,解耦出类脑的功能模块,研发机器驾驶脑,和汽车一起构成轮式机器人;并呼吁业内人士需要大力发展基于驾驶的图灵测试来推动我国类脑研究和无人车的产业化。李院士在整篇报告都一再强调对认知的度量,认为概念若不能形式化则对工程无意义。
二、报告中备受关注的研究方向
在各位院士教授的报告中,有多个研究方向备受专家学者关注,比如卷积表征记忆、混沌系统编码时序、类脑结构降低芯片功耗等。机器之心选取了「卷积与生物记忆」和「反向传播算法与脑研究」两大研究方向进行解读。
卷积与生物记忆
众所周知卷积是数学中十分重要的一个概念,但如何用这个概念来表达记忆?我们可以随李德毅院士所做的报告,进一步推导这一想法。当然,在我们了解卷积、推导用卷积表征记忆之前,需要理解记忆和储存的区别。
根据李院士的报告,记忆不是简单的储存,其伴随一定的取舍,而取舍就是通过计算进行简化和抽象的过程,记忆和计算总是同时发生的。通常,时间越长所丢失的信息就越多。记忆常常也存在联想和搜索,而模糊信息的联想与搜索恰恰也都是计算。所以无论语言记忆还是图像记忆,他们本质上都是统计记忆,越是长期的、大量的和反复的,就越难以遗忘。这里就类似于模型的训练,大量数据的训练的模型可以获得一个稳定、鲁棒的系统。少量数据训练的模型总是存在偏差,系统随着新数据的加入而变得不够稳定。
明确了什么是记忆之后,接下来从数学定义和在深度学习中的应用两方面,明确卷积这一概念。
1. 卷积的数学定义
相信很多读者第一次接触卷积都是在物理或概率论中,即两个统计独立变量 X 与 Y 和的概率密度函数是 X 与 Y 的概率密度函数的卷积。也即若有随机变量 X、Y 相互独立,且联合分布(X、Y)服从概率密度 f(x,y),那么随机变量 Z=X+Y 的概率密度可由卷积公式计算:
那么在泛函分析中,卷积(Convolution)是通过两个函数 f 和 g 生成第三个函数的一种数学算子,表征函数 f 与 g 经过翻转和平移的重叠部分的面积。所以在简单定义下,设 f(x)、g(x) 是 R 上的两个可积函数,作积分:
则代表卷积公式。
数学中的卷积概念并非通俗易懂,可以使用案例理解这一概念。假设你向一个漏斗加水,每一次加一小烧杯水(一烧杯水远小于漏斗的容积),那么每加一烧杯水,漏斗中都会多一些(漏斗一直在漏水)。每一次加水后漏斗中都净增了一些水,这就像两个函数 f(x) 和 g(t) 的积。
由于积分就是微元的加法,漏斗中水的总体积就是该卷积公式的结果。越早倒入的水对最后总体积增量贡献越小,某一时刻的输出是之前很多次输入乘以各自的衰减系数之后叠加形成的,将不同时刻的输出点放在一起,形成一个函数就是卷积。
因此在这一个案例中,f(t) 就是第 t 步所倒的水,g(x-t) 就是第 t 步所倒的水在 x 时刻的作用程度。
2. 卷积在神经网络中的基本概念
卷积神经网络是利用过滤器抽取像素值矩阵中的特征,不过既然说到了矩阵,我们可以复习一下矩阵乘法和矩阵 Hadamard 乘积。以下分别是 Hadamard 乘积和矩阵乘法。
Hadamard 乘积
矩阵乘法
我们可以通过以下图解理解 CNN 中的卷积:
其中,图像的输入深度为 3(R\G\B),显示在第一列矩阵当中。滤波器 wo、偏置项 b0 和滤波器 w1、偏置项 b1 分别显示在第二列和第三列。从上图可以看出,图像和滤波器对应位置乘积和再加上偏置项就得出特征图矩阵。例如特征矩阵的第一个元素 3,其就是滤波器 w0 和对应图像输入矩阵的乘积和再加上偏置项 b0,即 X[:,:,0]×W0[:,:,0]+X[:,:,1]×W1[:,:,1]+X[:,:,2]×W2[:,:,2]+b0=0+2+0+1=3。
在卷积神经网络里,可以把卷积想象成一种混合信息的手段。想象一下装满信息的两个桶,我们把它们倒入一个桶中并且通过某种规则搅拌搅拌。也就是说卷积是一种混合两种信息的流程。
卷积事实上就是一种数学运算,跟减加乘除没有本质的区别。虽然这种运算本身很复杂,但它非常有助于简化更复杂的表达式。在物理和工程上,卷积都有着官方的应用。
那么现在,我们再以上文为基础探讨一下李德毅院士眼中的卷积。李院士认为卷积之所以这么重要,不仅在于其能抽取图像特征,更重要的是卷积能度量记忆。记忆的可度量性才是对科研和工程最重要的,其表达形式正是已有认知和遗忘的卷积。
为什么已有认知和遗忘的卷积可以表征记忆?我们可以从以下李院士所展示的案例理解这一概念:
在脑认知的形式化中,卷积公式可能占据了重要的位置。正如上图所示,水箱存水量即累积量,f(t) 即在第 t 个微元所增加的水量,而 g(x-t) 即第 t 个微元在时刻 x 的作用程度。所以 f(t)×g(x-t) 的累积量就是存水量,存水量也就表达了记忆。如果我们替换掉上图的公式来表达记忆,那么其可以写为:
如上方程式表达,对于整体认知,遗忘和认知的乘积代表着某一时刻将遗忘这一效果加载到认知中。随时间的流逝,遗忘效果不停地加载到认知上,即每一个时间步认知和遗忘都会乘积一次。并且认知函数 f(x) 对整个记忆 h(t) 的贡献应该是随时间增大而减少的,这一点正好体现在卷积的特性中,即 g(t-τ) 函数中。因此 f(x)×g(t-τ) 的积分便是记忆的累积量。
如若将上述表达式再细致一点就可写为:
这一组方程将感觉记忆、工作记忆和长期记忆进行了形式化表达,人的记忆认识形态和动态演化就能用下图粗略地表达:
正如李院士所说,因为记忆包括识记、保持、再认和重现四个过程。也就是最开始由感觉记忆函数学习,但这个时候遗忘的速率是比较快的,随后工作记忆函数采用更慢一点的遗忘速率保持记忆,并在几次循环后达到长期记忆。
在之后的专题讨论中,也有其他学者针对李院士所提出的形式化记忆表示肯定,并且该学者表明他们研究组可以从黎曼广义动力学角度证明利用卷积表达认知和记忆是可行的。但需要确认的是在脑科学中是否存在实验能证明这一观点,即记忆到底在生物层面是如何产生的。
遗憾的是要在生物层面实现该证明还是十分困难的,因为脑科学领域暂时还没有对记忆的运作原理有相关解释,我们需要知道记忆发生在哪些区域、哪些神经元处理着记忆信息,才能理解记忆运作的机理。
反向传播算法与脑研究
在蒲慕明院士的报告中,一个重点是反向传播算法对脑研究的启发可能是巨大的,即脑科学在启发人工智能的研究的同时,人工智能的研究也会启发脑科学的发现。对此,蒲院士做了进一步探讨,希望能以其自身在反向传播算法和脑科学研究的经验来展示人工智能研究确实会启示脑科学研究。
八十年代中期,反向传播算法(Backpropagation Algorithm,BP 算法)的提出轰动了整个机器学习领域。该算法令监督学习的发展十分迅速,甚至有学者表明如果没有反向传播算法,深度学习不一定会实现(当然还是有不需要传统反向传播算法的深度学习算法:合成梯度)。
对于反向传播算法来说,如果输出正确,那么网络就保持不变;如果输出错误,就会根据损失函数调整神经网络中神经元的权重,试图修正错误。而对于脑科学来说,Francis Crick(诺贝尔奖获得者)早就探讨过反向传播对脑科学的影响,并表明虽然反向传播算法十分高效且有趣,但他无法想象生物神经元能实现反向传播这一概念。
因为反向传播是计算模式,它通过输出的错误来修正输入的权重,这并不是生物机制。蒲院士表明现在情况好像有了改变,实验证明反向传播模式可能真的存在于生物机制中。不过在进一步了解这一机制前,我们需要了解什么是反向传播算法。
反向传播算法必须从前向传播说起,现假设有一个三层神经网络(图一),我们先了解其正向传播的基本概念。
图一:三层神经网络示意图
该神经网络有三层:输入层、隐藏层和输出层。输入层和输出层各有一个偏置项和两个神经元。神经元的激活函数一般是非线性函数(如 f(x)=sign(x))。而正向传播的方式即前一层每一个神经元的值和对应传向下一个神经元权重的乘积和,也就是对应神经元和权重的线性方程。如上假设标红神经元的激活函数为 f(x)=sign(x),前一层与该神经元连接的权重为 w0、w1 和 w2,那么该神经元由正向传播所得到的值为 f(w0*1+w1*x1+w2*x2)=sign(w0*1+w1*x1+w2*x2)。在 NN 里,输入层每一个神经元一般对应着一个特征值,而这些特征由上文的方式正向传播计算最终得到输出层的类(Class),比如说图像识别中猫或狗的类别。
现在,为了训练这样一个神经网络(当然结构比上文复杂得多,可能有多个隐藏层且每层有很多神经元),通常就是使用反向传播算法连续更新权重(即如图一中的 w0、w1 和 w2),直到损失函数收敛到局部极小值(因为神经网络是非凸函数,不能收敛到全局最小值)。
简单来说,反向传播算法最初所有的边权重都是随机分配的。对于所有训练数据集中的输入,人工神经网络都被激活,并且观察其输出。这些输出会和我们已知的、期望的输出进行比较,误差会「传播」回上一层。该误差会被标注,权重也会被相应的「调整」。该流程重复进行,直到输出误差低于制定的标准。上述算法结束后,我们就得到了一个学习过的人工神经网络,该网络被认为是可以接受「新」输入的。该人工神经网络可以说从几个样本(标注数据)和其错误(误差传播)中得到了学习。
现假设我们计算了输出节点的总误差,并将这些误差用反向传播算法传播回网络,以计算梯度。接下来,我们使用类似梯度下降之类的算法来「调整」网络中的所有权重,目的是减少输出层的误差。如下图所示,输出层的结果与标注之间的差为最开始的误差,现在误差沿着红色箭头向前一层传播并更新权重。从数学上来说,由于最速下降法是一阶导数,而误差可借由一阶导数的链式求导法则向前传播。
假设初始权重为 w0、w1 和 w2(如图一所示),则更新后的权重为 w4、w5 和 w6(如图二所示)。
图二:误差反向传播示意图
如果我们现在再次向网络输入同样的样本,网络应该比之前有更好的表现,因为为了最小化误差,网络已经调整了权重(如图三所示)。采用更新后的权重计算将使得误差减少,这意味着我们的网络通过误差更新权重,学习了如何正确地进行分类。
图三:网络权重调整示意图
用我们数据集中的其他训练样本来重复这一过程,则可视为神经网络学习了这些例子。
当然反向传播算法的具体数学式我们并没有推导,但其主要就是遵循链式法则进行求导,如果感兴趣的话,我们推荐 Andrew Ng 的 Machine Learning 课程,该课程对反向传播算法有详尽的解析。
至于反向传播算法到底如何影响脑科学的研究,蒲院士在报告中有提供实验能观察到这一现象。在体外培养的神经元里,神经元可以相互产生连接,我们可以用这四个神经元记录其电位反应(如图四所示)。这四个神经元之间可以产生 16 个连接,我们就可以测量这 16 个连接里是否产生了权重的改变,即产生了 LTP(长时程增强,短时间快速重复高频刺激传入 N 元,突触传递效率长时程增强)。比如说我们刺激神经元由 E2 到 E1,那么现在观察上游和下游的神经元突触到底有没有变化。
图四:四个神经元电位反应实验结果(图片来源:报告文稿)
蒲院士表示,在实验中有九个连接有神经反应,其中的三个连接也有强化现象。强化现象不是说会产生记忆储存的地方,其可以传到网络里面其他的突触,这个现象我们称逆向传播;而且不仅有逆向传播,还有侧向传播。这个现象与在神经网络中的情况很相似。最后他们的试验结果表明,假定一个突触产生了 LTP 或 LTD,那么神经元就会将这一信息反向传播,产生强化就会增强电位差,弱化就会削弱电位差。这里与反向传播算法传递误差类似,因为产生错误就会得到电位抑制,也就是产生 LTD,那么这一弱化信号反向传递到其他神经元就会得出相似的效果并得以更新电位差与神经元状态。
三、专题讨论部分提问及回答
专题讨论一:脑科学如何支持人工智能的发展
主持人:王佐仁,中国科学院上海生命科学研究院神经科学研究所副所长、高级研究员
参会人:
郭爱克,中国科学院院士、中国科学院生物物理研究所、中国科学院上海生命科学研究院神经科学研究所研究员
蒲慕明,中国科学院外籍院士、中国科学院神经科学研究所所长
徐波,中国科学院自动化研究所所长
何生,中国科学院生物物理研究所研究员、脑与认知科学国家重点实验室主任
蒋田仔,中国科学院自动化所脑网络组研究中心主任
鲁华祥,中国科学院半导体研究所研究员
杨天明,中国科学院上海生命科学研究院神经科学研究所研究员
崔翯,中国科学院上海生命科学研究院神经科学研究所研究员
图为专题讨论一的现场;图中从左到右分别对应上述参会人(拍摄:机器之心)
问题 1:现在的神经网络都没有谈到同步和异步的问题,或者能做到大多数同步。若希望将时间编码融入到空间编码里面,神经科学在哪些方面能提供借鉴?
回答1:对于时间编码这个问题,个人觉得核心的一个概念是时间在大脑中如何表征。实际上多个不同的研究表明,大脑在很多情况下对时间的编码是模糊的,只有在非常特殊的情况下有例外。就像大多数人都通过戴手表来看时间,绝大多数情况下,我们大脑对时间的感觉是非常不精确的。运动控制在小脑时间编码非常重要。
回答2:时间的维度在神经网络中的表达,很多脑神经网络可能没有用空间的概念,新的神经网络里面已经开始用了。
回答3:就时间如何编码这一问题,现在领域里做大脑中关于时序处理主要用一种叫递归神经网络的模型来做。这个递归神经网络的一个特性就是在这个网络里面存在着大量的相互连接,可以是兴奋性及抑制性两种连接同时存在,这个网络就可以显示非常多的动态性。如果把参数调到某一定范围的话,还可以产生一种混沌的状态。混沌系统有非常强大的编码能力,能把时序信息编码在里面。现在领域中有很多的工作用这种混沌或者接近混沌的递归网络神经系统去描述大脑是如何运作。比方说,去学习一些在时间上要求非常精确的运动的任务。虽然说现在还不明确大脑中处理记忆的机制,但个人认为是一个非常有前景的领域研究方向。
回答4:微分动力系统里面基本上有三种情况,一种是不动点,一种极限圈,还有一种混沌。这三种情况都不是描述表征时间信息的方法,这就为什么好多递归神经网络研究进展不下去的非常重要的一个观点。我也认为小脑对于精确控制时间是非常重要的。业内对小脑中的神经网络研究比较少;反而对于传统的神经网络相关时间编码的研究已走进死胡同了。关于序列信息或者语言信息如何产生,用递归神经网络的方法来研究,个人认为很难再走得很远。
回答5:通过复杂性的提高,其实许多有时序的东西都能全部编码在网络上。以前在我们的工作中,比如语音是最典型的时序信息,模型输出有三个状态和四个状态。现在我们最新结果都不是这样的,输出就是一个状态,就是一个神经元,时序全在网络上完成编码。所以从这个角度来说,我们原有的神经科学对时序的处理,在这里面很难去启发;但是最本质的问题,我们用现有的人工神经网络再往前去走的话,对计算量、对学习这种数据的要求会越来越高。比如说我们最基本的讲类脑和受脑启发,要用脉冲神经网络;这里如果用基本的模型如脉冲神经网络,可能大量的脑科学里面对一些这种时序的处理机制都会有缺陷,包括蒲先生讲的传递之间每个都有五到七毫秒的延时。虽然数学上是最优的,但也更加耗能,且光从准确率角度来说还是挺困难。
问题 2:脑科学、认知神经科学或者神经生物学与人工智能的相关性如何?如何给人工智能提供有用机制?
回答 1:认知神经科学比脑科学更高一个层次,包括心理学的概念;认知神经科学严格来讲以神经科学为基础,是心理学的概念;神经科学以神经生物学为基础。应该讲从最合适的物质和思想结合考虑,脑科学比较合适,认知神经科学的物质基础相对差一点。
回答 2:现在深度神经网络这么流行,很难说其根本的来源是认知科学还是具体的人。可以称其属于跨脑科学与认知科学的层次。个人认为更偏计算认知神经科学。
回答 3:个人认为现在脑科学对人工智能这个领域贡献最大的一些发现还都属于微观层次的。比如像赫伯学习定律、突触学习机制,其在生物中首先发现,到现在基本上是做人工智能的神经网络当中最重要的计算原理。还有其他包括神经回路的许多发现也是现在深度学习的重要基础。像我们研究的神经生物学,有在研究比较高层的认知,也有比较底层的分子、突触、细胞之间的连接,这些都会对整个领域有贡献。
回答 4:我来自中科院半导体所,我们研究神经网络,更偏重于从芯片的角度来做神经网络这方面的工作。从做芯片的角度来说,受脑科学的启发还是挺多的。从微电子的角度来说面临 1)性能;2)功耗等问题,从神经元的工作机理中可以得到启发。其次,神经元分群这种群的结构,若能做到可塑性,对芯片设计制造来说有很大帮助。通过后期的可塑让芯片完成不同的功能,类似 FPGA 的结构;同时群内部互联也将更多有聚类的形态。
回答 5:在脑科学或者是生物学里,若有研究数学方面的人才加入会更好。特别是如突触、神经的一些现象,用数学来表现,就可一目了然;如果不用数学表现,用生理学的这些词和说法来讲,和社会学一样很难用数学来表现,其研究进度总是没有办法提升。比如刚才蒲院士在讲的,一个脉冲会产生一个电压的变化,再有一个电压的变化形成的叠加就是卷积。如果用数学的表示就是卷积,并把脉冲的频率当成函数的话,后面这个电压的变化就全是纯函数。实际上这个可以用数学来表示的,如果每一个小的一点点用数学表示,把方程式统合在一起,工学就很容易实践了。
回答 6:我自己在研究基于脉冲神经网络的学习算法,觉得目前基于脉冲神经学习计算,面临较大的挑战或制约之一是编码问题。比如说图像总要把它编码成脉冲序列,但之后神经元之间究竟是采用哪种模型来学习,用什么方式学习还未知。编码是一个能够影响脉冲神经元在未来人工智能行业发展的非常关键的问题。
专题讨论二:类脑智能的态势与发展研讨
主持人:刘成林,中国科学院自动化研究所副所长、模式识别国家重点实验室主任
参会人:
蒲慕明,中国科学院外籍院士、中国科学院神经科学研究所所长
陈熙霖,中国科学院计算技术研究所副所长
徐波,中国科学院自动化所所长
李永杰,电子科技大学生命科学与技术学院神经信息教育部重点实验室教授
侯增广,中国科学院自动化研究所复杂系统国家重点实验室副主任
黄铁军,北京大学信息科学技术学院教授、计算机科学技术系系主任
吕金虎,中国科学院数学与系统科学研究院研究员
图为专题讨论二的现场;图中从左到右分别对应上述参会人(拍摄:机器之心)
专家就主题发表的核心观点:
陈熙霖:今天深度学习的成功是数学的成功,基本上和脑的关系不大。工业界花很多时间去做深度学习是没有问题的,但作为学术界,学术界应该花更多的精力跳出深度学习。
李永杰:视觉系统研究其实有很多生物的智能都可以借鉴,比如说像郭院士研究的果蝇,包括其他一些拥有独特视觉优势的动物。他们拥有的独特视觉能力是人类很难达到的,比如说猫的夜视能力。
侯增广:现有机器人更多为工业机器人,其智能仅停留在增强人的能力,远远没有达到智能水平。所以将来人工智能或者是脑科学发展到一定程度,为机器人能够提供一些技术的时候,机器人完全可以融入我们这个社会。
黄铁军:1)如何达到通用人工智能是我们应该首先讨论的话题;2)当我们谈从脑科学、类脑、仿脑的时候,一定要分清楚层次,最最基本的层次一定分清楚功能和结构两个层次。虽然目标是功能,但必须先考虑什么样的结构实现这个功能,若不考虑层次是给自己找了一个难的挑战性问题;3)强人工智能需要有新的计算平台来执行运算,才能逐渐走向实现强人工智能的目标。
李金国:实现 1)智能涌现的机理;2)神经元可塑性等自组织的能力的机理;3)学习的机理 这三个挑战,对人工智能的发展有推动性作用。
问题 1:谭院士下午提到关于脑启发计算,报告最后一个例子就是概念学习,他引用的那篇文献就是 15 年一篇 Science 的文章,但实际上这篇文章还是用数学的方法,不是生物的神经的机制;文章用贝叶斯规划的话以文本的识别或者是文本类型的这种识别来做推理,以笔划作为基本的单元部件,再用贝叶斯数学的方式来推理的。这种方式来做概念学习的话,在我们实际工程里面属于非常简单的例子,但这种计算量还是非常大的。我的问题是,就概念学习这种方式,除了我们在如果没有生物启发的话会用数学的方式做,若从神经的机制,我们现在还有没有这种实验的可能来观测概念形成的过程?现在有没有实验条件来观测概念的形成过程?
回答 1:现在可以通过观测在活体大脑里大量神经元放电的状态判断其在放电。因此就概念学习这一方向,以祖母的例子为例,祖母的概念形成之后,我们也可判断祖母的名字在语言区或者其他区域造成放电与你看到祖母的面孔在面孔区放电是不是同步。我们假设说概念的形成,就是各个脑区跟祖母相关的神经元一起放电,形成大的集群,即假如一起都出现了电活动就是概念。我们可以让一个人想祖母的概念,并继而观测哪些神经元有活动;可以通过观测激活了哪些区域的神经元来判断是否能够唤起祖母的概念。这个实验是有可能做成,但是技术上还有困难。在人身上是不能做,但是在猴、鼠上可以做。至于在鼠或者猴上检测到概念的方法,比如在猴上,可能可以做到通过检测面孔,或做用猴做载体的检测来实现;当然也有利用宏观的影像来观测大面积的电活动在各个区域是否同时出现。跟概念相关的实验,必须要能够操纵概念生产的因素,才能决定其产生现象的因果关系。
问题 2: 李老师说他已经用卷积来表示了认知和记忆,我们从黎曼广义动力学角度证明出来这个观点是对的。但我们是否能基于从脑神经机制中得到一些发现,通过神经科学实验来验证这个观点?
回答1:就人能记住别人的面孔这一能力,就能确信的是在脑的某些区域你的面孔是被储存的,但是具体储存在什么地方、储存在哪些网络里还没有搞清楚,同时也不知道其运作原理。我们现在需要先知道是哪些区域、哪些神经元处理这个记忆的信息,然后我们还需要能够观测记忆是怎么形成的、怎么样汲取的,最终才能慢慢理解其工作原理。但现在完全不清楚。
回答2:从神经科学角度来说记忆的基点不太清楚;可能还涉及到另外一个现在有所争论的方面,即现在我们用的主流的人工神经网络与生物的神经网络之间是不是有一定的相似性,或者是不是受到生物神经网络的启发而构建的。早期模型的构建还是受到一些神经网络的启发,如50年代提出的感知模型是受到神经科学的启发,但是现在的人工神经网络,如全连接前向神经网络和卷积神经网络,和生物神经网络之间的相似性已经比较少了,只能说搭建时受到一些神经网络的启发。
回答3:这种实验方向主要是通过脑机接口的方式实现。比如说某一个概念激活了哪些神经元,我们把这种运行机制物化并提取出来,然后用一个解码的方法解码出一个具体的概念,但是这还是个非常复杂的过程。怎么去学习,怎么了解其编码及解码过程,还有本身记忆弥散在我们整个大脑里但具体哪一块区域跟我们所需要信息相关,这些问题都比较有特异性,且需要进一步了解。比如说语言中枢,可能我们讲话的时候,产生的语义的表达一定是在某个语言中枢的一个区域里面,这个区域里面我们再通过一个其他的表达产生的回路,形成驱动。
问题 3:现在脑科学太复杂,我们有没有可能在可以预期的时间内,把脑的一个高级的功能解析出来?若我们对大脑功能的解析在短期还处于探索阶段,深度学习再往前会怎么走?
回答1:进化过程就是大数据训练,人类大脑的进化过程也靠了不少大数据的训练。下一步深度学习的网络、规模、连接要复杂化,并且有更多动态行为。深度学习还会出现越来越复杂的模型,或跟脑的结构类似,也有可能跟脑的结构不类似。用更复杂的结构去训练,自然会产生更多的可能性。
回答 2:深度学习发展非常快,大概三个月就会出现不同的新方法。比如我们原来权重连接都是 32 位浮点数表示,现在都可以变成 01 了,即所谓的量化神经网络。01 当然会有点精度的损失,但是变成三位四位这个基本上不会任何损失的。同时从实现效率来说,能耗会降很多。除此之外像神经网络的其他领域现在也有一些进展,现在深度学习也在很多研究区域去学习不同的甚至异构功能,他从不同的结构之间相互去学习。包括小数据。记忆很重要,是因为在记忆使用一些机制后,其就可成为 Zero-shot 学习,或者是 One-shot 学习,这两种学习对没见过的数据也能处理。深度学习领域在不断的发展,从机理上和神经科学也许没有太多关系,至少从认知这个角度来说,吸收了很多认知科学的原理。但是类脑只是一条技术路径,将发展到什么地方停止,很难预计。但是至少我们从脑科学、神经科学的角度,从另外一条路径往前走,这两条路径相互启发,可能每一条路都会走得更快一点。事实上像我自己团队(中科院自动化所)里面就有两个团队,一个就做深度学习加记忆这样的量化神经网络,另外一个团队就在做脉冲神经网络(Spiking Neural Networks,也简称 Spiking)。脉冲神经网络最大的一个问题就是全世界在这个领域里面做的人太少了。深度学习开源,业内最优秀的人都这块领域,其代码和工作效率拥有非常好的基准,发展也非常快。我们做脉冲神经网络的团队大概有四五个开源的,就拿我们数据去测一点,效率差别很大,里面代码的错误一大堆,跑出来的结果也不一样,包括每个神经元的基本的数学模型在实现上没有差别。所以我说一定鼓励做脉冲神经网络领域的人来开源,这样走得更快一点。
回答 3:深度学习是一个做的比较好的复杂函数的拟合器,现有看到所有深度学习最成功的例子都是在那些局部上相关性比较好的,当然现在语言 LSTM(Long Short Term Memory Networks)来了以后他也是通过记忆构建局部相关性。我们看到的东西在属性、类别到语义之间是个渐进的过程,我们可能比较容易解决的是属性类别,但实际上属性类别也是一个相互互为因果的关系。
查看全部嘉宾阵容并报名参与机器之心 GMIS 2017,请点击「阅读原文」。