机器之心专栏
作者:李航
字节跳动科技有限公司
近日,字节跳动科技有限公司人工智能实验室总监李航在《中国计算机学会通讯》2019年第一期发表专栏《智能与计算》,对计算与思考(或智能)这个话题进行简单综述与讨论。机器之心经授权转载。
前言
1950 年,图灵发表论文《计算机器与智能》 (Computing machinery and intelligence),提出著名的 图灵测试。这段时间里,图灵关注的主要问题是, 在计算机上是否可以实现人的思考 (thinking) [1]。他 的基本观点是,只要进行适当的编程,计算机可以 像人脑一样工作。我们不需要给思考一个严格定义 1, 可以通过图灵测试判断计算机的“思考”能力是否 达到了人的水平。
1957 年,冯·诺伊曼去世,次年他的遗作《计算机与人脑》(The computer and the brain) 出版。该书是他在离世前的两年时间里准备的演讲草稿,讨 论他当时最关心的研究课题:计算机和人脑。冯·诺伊曼把计算机和人脑都看作是计算机器 (automata), 对两者进行了比较,试图为建立统一的计算机器理 论奠定基础。
人的思考是不是计算,是怎样的计算?计算机 是否可以实现人的思考?这个问题是认知科学、人工智能的一个核心问题,这一点从计算机领域两位 巨人对这个问题的关注程度就可见一斑。
本文对计算与思考(或智能)这个话题进行简单综述与讨论。必须申明,笔者是计算机科学家, 对脑科学、认知科学等是外行。因为人工智能的目标是要构建能够“思考”和“行动”的机器,所以作为人工智能的研究人员又不能不对这些问题进行 关注与思考,进而斗胆执笔,写出本篇文章,希望能抛砖引玉,引发大家的思索与辩论。
脑科学告诉我们的
人脑是由千亿级的数百种神经元(神经细胞) 通过千万亿级的突触连接形成的神经网络,能够实 现各种智能性功能,包括感知、认知、语言、情感、 创造、意识。脑科学研究虽然取得了一定的成果, 但离探明人脑的工作机理还相差甚远 [2]。
图1 大脑主要区域
在宏观层面,脑科学研究对大脑各个脑区的结 构与功能有一定的认识。人脑由大脑、小脑、脑干 组成。大脑最重要的部位是大脑皮层,人类与动物 的主要区别在于人类拥有极其发达的大脑皮层,可以说大脑皮层造就了人类的智慧。大脑皮层不同区 域掌管不同的功能,包括视觉皮层、听觉皮层、味 觉皮层、体感皮层、运动皮层、语言区等(见图 1)。
在微观层面,脑科学研究对神经元的信息处理 机制有比较清楚的了解[3]。神经元通常由一个细胞体、 一个轴突和多个树突组成。树突接入信号,轴突接 出信号,神经元与神经元之间由突触连接(见图 2)。 现神经元从多个前神经元得到输入信号,当输入信 号超过一定阈值时被激活,产生输出信号,传递到 多个后神经元。神经元之间的信号传递通过突触进 行。前神经元在轴突末梢释放化学物质,通过突触 传到现神经元的树突,打开现神经元的离子通道 (ion channel),促使其细胞内外离子流动,形成现神经元 的输入信号。现神经元的输出信号通过轴突以离子 流的形式传递到轴突末梢,继续向后神经元传递。
图2 神经元
在介观层面,脑科学研究对神经环路的信息处 理原理有一些认识。神经可塑性是神经网络的重要 特点,有所谓的赫伯法则(Hebbian rule),认为同 时被激活的神经元之间的连接被强化,产生新的链 路,形成新的记忆 (fire together, wire together)。对 概念的记忆存储于由密切连接的神经元组成的细胞 群中,激活其中的部分神经元可以唤起对整个概念 的记忆。
可以看出人脑是一个由庞大复杂网络组成的信 息处理系统。它通过神经元之间的信号传递实现信 息处理,具有以下特点 :处理速度并不很快,进行 的是并行处理,计算与存储融合在一起,拥有自学 习能力。
心智的计算理论
心智的计算理论 (computational theory of mind) 认 为,人的思考是计算,人脑或心智是计算系统。这 里说的计算不是比喻,而是实质上的 [4]。这个认知 科学、脑科学、人工智能等领域的理论,在20 世纪 60~70 年代占据主流地位,代表人物包括认知科学家 福多 (Jerry Fodor)和平克 (Steven Pinker)、脑科学家 马尔 (David Marr)、哲学家丹奈特 (Daniel Dennett) 等。
计算系统
马尔提出了计算的层次概念,认为无论是计算 机还是心智都是计算系统,需要从三个不同且相关 的层次理解,包括计算层、表征层、实现层。计算 层决定系统的输入与输出,对应计算的功能 ;表征 层决定系统内部的表征与算法,对应计算的软件; 实现层决定系统的物理实现,对应计算的硬件。
心智的计算理论把心智看作是图灵式计算机 (Turing style machine),认为人的思考(感知、认知等) 是这种机器上的计算。这一点与图灵和冯·诺伊曼 的观点一脉相承。有许多理由让人相信这个想法的 正确性。给定一个输入,产生一个输出,至少从功 能的角度,心智做的是信息处理,可以把心智看作 是一种计算系统。神经元对输入的多个信号进行处 理,输出一个信号,进而传递信息,从实现的角度, 是一种计算器件。
心智的计算理论中,心智的表征理论是重要的 一个分支,从表征的角度进一步推进心智是计算系 统的想法。
心智的表征理论
心智的表征理论(representational theory of mind) 认为思考是在心智中(图灵式计算机上)的符号操 作 [5,6]。人的思考和行动是基于常识的,由信念或愿 望驱动。信念是对事实的描述,愿望是对目标的描 述,常识是对世界的描述,而这些描述是通过内心 的语言进行的,称为“心智语言”(mentalese)。也 就是说,心智中的符号操作基于心智语言。
心智语言同自然语言一样,由符号和语法组成。 符号有简单的,也有复杂的,语法规则决定符号的 组合方式以及产生的语义。听别人讲一段话,人一 般不能复述原话,但可以把内容讲述出来,对这个 现象的解释是,人理解自然语言时把它转化成了心 智语言。自然语言有歧义(多个语义),但心智语 言没有,原因是人能够区别自然语言的歧义,说明 人用不同的心智语言表达了不同的语义。
有一些认知学实验支持心智语言存在的假说。 比如,让受验者坐在电脑屏幕前,屏幕上瞬间闪出 两个英文字母,根据内容快速按下两个按钮中的一 个。如果两个英文字母相同,按其中的一个,如果 两个字母不相同,按另外一个。有时出现的是同一 个字母且大小写相同(如“A A”“ a a”),有时出现 的是同一个字母但大小写不同(如“A a”“ a A”)。 结果发现,大小写相同时,受验者按按钮的速度更 快,准确率更高。说明在第二种情况,人需要做某 种处理把视觉中的符号转换成心智语言中的符号。
中文房间
图3 中文房间
哲学家塞尔(John Searle)用著名的中文房间 (Chinese room) 思想实验,对“心智是计算系统,思 考是符号操作”的想法提出质疑 [7]。
中文房间思想实验是说,有一个不懂中文的人 被放到一个房间里,其他人从房间外塞进写着中文 的纸条。房间里有一本书,写着中文会话的规则。 他根据书上的规则,对着纸条上的中文符号,找出
相应的中文符号画在纸条上,把纸条塞出房间外(见 图 3)。从房间外的人看,这个人能够用中文对话, 会说中文,但是事实上他完全不会。基于符号操作 的计算机器,和中文房间里的人一样,看似在使用 语言,其实完全没有理解语言。说明语言理解乃至 思考,不是计算和符号操作。
中文房间的论点引起了极大的反响,各种支持和 反对的意见接踵而至。比如有一个代表性的反对意见 是:确实这个人不会讲中文,但是整个房间会讲中文。 因为从功能的角度来说这个房间整体可以完成中文的 对话,这个人只是会讲中文的系统的一部分。塞尔对 此的反驳是:这个人可以把所有的规则都记住,也可 以离开这个房间,但是只要他不能把语义附加到符号 上,就不能认为他会讲中文。塞尔的主要论点是符号 操作只能代表语法,不能代表语义。
体验认知理论
体验认知 (embodied cognition)理论 2 是近二十 年来兴起的理论,认为生命体(包括人和其他动 物)的身体是感知和认知的基础,身体的体验对感 知和认知起着决定性的作用 [8]。代表人物包括认知 科学家雷可夫 (George Lakoff)、脑科学家达马西奥 (Antonio Damasio)、哲学家克拉克 (Andy Clark) 等。 可以说,体验认知理论对心智的计算理论提出了一 定的挑战。
脑科学的假说
达马西奥认为,思考是能够在意识中产生表象 (image)的,在下意识中进行的对神经表征 (neural representation) 的操作 [9]。神经表征是人脑的神经活 动(神经网络中的信号传递)产生的状态。表象是 指人的意识中对事物形象的认识,包括视觉、听觉、 体感等的表象。比如,提到“黄色的帽子”,我们会 在脑海里联想到黄色的帽子,这就是它的视觉表象。
脑和身体是不可分割的有机体(这里说的身体指除去脑之外的身体部位)。脑和身体的相互作用, 形成一个整体,与外界相互作用,产生人的行为。 通过神经系统,外界信号可以从身体器官传到大脑, 指令信号也可以从大脑传到身体器官。大脑发出的 指令未必都经过思考,有很多属于被动的反应。经 过思考的指令,会在意识中产生表象,成为人的主 动的命令。达马西奥指出“我们未必是思考机器, 其实我们是思考的感觉机器 (We are not necessarily thinking machines; we are feeling machines that think)”。
思考也使用单词和符号。单词和符号作为表征 被记忆,人在说出或写出一句话之前,单词和符号 相关的听觉表象、视觉表象等浮现于意识中。人的 逻辑和数学思维也基于表象,而不是符号。一个证 据是,许多数学家、物理学家,包括爱因斯坦,都 将自己的抽象思维过程描述为表象的操作过程。
这里谈到意识,这也是认知科学、脑科学和哲 学关注的一个重要问题,至今仍是一个很大的疑团。 因为涉及的内容较多,本文不作讨论。
体验模拟假说
体验模拟假说 (embodied simulation hypothesis) 是关于语言理解的体验认知理论,认为人的语言理 解是在心智中进行的,基于自己过去的视觉、听觉、 运动等体验的模拟 [10,11]。
人进行语言理解时既使用语言相关的大脑部 位,又使用感知和运动相关的大脑部位。理解语 言描述的概念时,会联想到概念相关的图像,这 时大脑视觉皮层变得活跃 ;会联想到概念相关的 声音,这时大脑听觉皮层变得活跃 ;会联想到概 念相关的运动,这时大脑运动皮层变得活跃。语 言理解的过程就是,唤起大脑各个部位相关体验 的记忆,基于这些记忆在心智中生成语言所描述 的内容的过程。
语言理解大多发生在下意识,在意识层面,会 产生相关的表象。比如,问:“大猩猩有没有鼻子?”要回答这个问题,我们会在脑里先浮现出大猩猩的 视觉表象,然后根据这个表象去回答问题。再比如, 听到 :“ flying pig(飞猪)”,不同的人会根据自己对 飞的概念的理解(飞的表象),以及对猪的概念的 理解(猪的表象)组合成不同的新的表象。
如果认为语言理解不是基于符号,而是基于体验 模拟,那么中文房间中的人确实没有理解语言,塞尔 的观点可能是正确的。语义不是由符号定义出来的, 而是从人与外界交互的体验中积累抽象出来的。
有很多认知学实验证明体验模拟假说的正确 性。有这样的实验,让受验者先听一句话,然后看 一张图片,之后快速按下两个按钮中的一个。如果 图片中出现了句子中描述的物体,按其中的一个按 钮,否则按另一按钮。例如,句子有“木匠把钉子 钉进墙里”(常识中这时钉子的方向是水平的),“木 匠把钉子钉进地板”(常识中这时钉子的方向是垂直 的),图片中显示的物体有水平方向的钉子,也有 垂直方向的。结果发现句子中钉子的方向和图片中 钉子的方向一致时受验者的反应速度更快,判断准 确率更高。更一般地,语言中描述的和图像中显示 的同种物体,当方向、形状、颜色相同时 3,人能 更快地判断其同一性。说明人在理解语言时,根据 自己的经验在视觉上想象出了对应的场景。
比较与评论
两个理论
心智的计算理论与体验认知理论在思考即计算 问题上有相似的观点,但在思考是怎样的计算问题 上观点完全不同 4。从近年的研究成果来看,体验 认知理论对人的感知与认知机制能够给出更好的解 释,有很多理由让人相信这个理论的正确性,虽然 现在还不能完全否定心智的计算理论。
心智的计算理论以意识为主要对象,基本不考虑下意识 ;只关心人脑或心智,而不关心身体,对 这个理论来说,身心是可以分开的,智能可以独立 于身体而存在。体验认知理论关注的是人脑和身体 的统一体,强调下意识对意识的影响,身体对人脑 或心智的影响 ;对这个理论来说,身心是不能分开 的,(人的)智能不可能独立于身体而存在。心智 的计算理论中的计算是意识中的符号特征的操作。 体验认知理论中的计算是下意识中的神经表征的操 作,其结果浮现于意识中成为表象。图4 给出了两 个理论的对比。
图 4 心智的计算理论与体验认知理论的对比
人工智能
在人工智能 60 多年的历史中,一直有符号主义 (symbolism)和连接主义 (connectionism)之争。前 30 年研究的重点是知识与推理,占主导地位的是符 号主义,后30 年特别是近十年研究的重点是机器 学习,特别是深度学习,占主导地位的是连接主义。 这与心智的计算理论与体验认知理论的发展在时间 上有一定的对应关系。认知科学和人工智能本来就 是相互影响的两个学科。
深度学习的重要概念是人工神经网络和神经表 征。神经表征将图像、语音和语言的内容都表示为 实数向量。人工神经网络是对各种表征进行操作, 从而完成各种感知、认知的模式识别任务的机器学 习模型。深度学习的“神经表征”与体验感知理论 的“神经表征”不尽相同,但也有相通之处。人工 神经网络和生物神经网络具有不同的机制,后者借 鉴了前者的原理。
结语
思考即计算这一命题是认知科学与人工智能的核 心问题。图灵和冯·诺伊曼时代以来,其正确性就不 断被一些事实所佐证。计算机在数值计算上早已超过 人类,近年在智力竞赛、围棋上又完胜人类,在图像 分类、语音识别、机器翻译上也接近人类。这些说明 对人类来说属于思考的问题,在计算机上都可以实现。 由此看来,图像理解、语言理解等现在看来还非常困 难的问题,未来将有希望在计算机上实现或部分实现, 原因是这些问题的本质也是人的思考。
心智的计算理论和体验认知理论从不同角度对 “思考是怎样的计算”给出了答案。前者认为思考 是符号计算,后者认为思考是神经计算。虽然现在 没有确定性的结论,但体验认知理论似乎对人的思 考机制给出了一个令人信服的解释。近年深度学习 的巨大成功说明基于神经计算(人工神经网络)的 信息处理能更好地实现人的感知与认知能力。希望 体验感知理论的研究取得更大的进展,为人工智能 提供更多的启发和引导。
如果智能和身体不可分割的假说成立,那么构建 像人一样的智能系统就需要从开发智能系统的“身体” 入手,让它们在与环境的互动中获得智能,这似乎意 味着要走一条非常遥远而艰难的路径。但现实中往往 并不需要构建像人一样的智能系统,很多情况下能 得到辅助人的智能工具就足矣,所以问题可以被简 化,这时体验认知理论仍然具有借鉴意义。
注释
1这里说的“思考”并没有严格定义,一般包括认知和感知。
2也有人译作“具身认知”理论。
3形状:“天空中飞翔的老鹰”与“躲在巢中的老鹰”。颜色:“放在橱柜中的牛排”与“放在餐盘上的牛排”。
4其实这两个学派都有不同的学者,他们对具体问题的观点不尽相同。
参考文献
[1] Proudfoot D.What Turing himself said about the imitation game[J]. IEEE Spectrum , 2015, 52(7):42-47.
[2] 蒲慕明,脑科学给人工智能带了来什么?[OL].[2016-08-27]. https://blog.csdn.net/happytofly/article/ details/80125000.
[3] The Neuron and Nerve System, Khan Academy.
[4] Zalta E N, ed. Computational Theory of Mind[M]// Stanford Encyclopedia of Philosophy, 2015.
[5] Pinker S.The Language Instinct[M].William Morrow and Company, 1994.
[6] Pinker S.How the Mind Works[M]. W. W. Norton & Company, 1997.
[7] Zalta E N, ed. The Chinese Room Argument[M]// Stanford Encyclopedia of Philosophy, 2014.
[8] Zalta E N, ed. Embodied Cognition[M]//Stanford Encyclopedia of Philosophy, 2015.
[9] Damasio A. Descartes' Error: Emotion, Reason, and the Human Brain[M].Penguin Books, 2005.
[10] Lakoff G. Cascade Theory: Embodied Cognition and Language from a Neural Perspective[R]. Central European University, 2013.
[11] Bergen B.Louder Than Words: The New Science of How the Mind Makes Meaning[M].Basic Books, 2012.
作者介绍
李航:中国计算机学会(CCF)高级会员,《中国计算机学会通讯》(CCCF)特邀专栏作家。 字节跳动科技有限公司人工智能实验室总监(Director of AI Lab)。主要研究方向为自然语言处理、信息检索、机器学习等。
本文为机器之心专栏,转载请联系原作者获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com