机器直觉

2020 年 11 月 22 日 专知

当前以深度学习代表的人工智能技术所能解决的问题往往需要具有大量可以借鉴学习的训练集, 同时要求所获取的信息是完备的. 但在复杂时变的真实应用环境中, 采集到的数据往往包含大量噪声与不确定性, 且仅包含环境的局部信息, 导致了基于深度学习的人工智能应用的局限性. 而在同样环境下, 人类却往往可以依靠直觉做出较为迅速且适宜的判断, 这为我们发展新的人工智能理论解决上述问题提供了灵感. 本文系统地对人类直觉的概念、机理、类别等内容进行论述, 分析了不同学科已有相关研究进展及存在的不足. 在此基础上, 提出了机器直觉这一新的交叉学科研究方向, 并给出了实现机器直觉的基本准则, 以及通过让机器实现类似甚至超过人类的直觉能力、赋予机器洞察力与创造性的研究目标. 本文尝试设计了机器直觉的通用整体架构, 确定了全息感知、直觉认知、直觉决策和博弈行动几个主要功能模块的基本原理和内涵. 最后, 从脑科学、认知科学、人工智能等多学科交叉研究角度, 对机器直觉的应用与未来研究方向进行了展望, 为后续展开机器直觉的研究提供方向性指引.

引言：

自 20 世纪 50 年代人工智能的概念提出后, 不同类型的人工智能技术先后被提出, 呈现出百花齐放、百家争鸣的研究盛况. 基于对智能的不同角度的理解, 目前形成了联结主义、符号主义以及行为主义等 3 大主要流派 [1] . 联结主义的核心是神经网络, 于 20 世纪 50 年代中后期出现, 特别是 F. Rosenblatt 首次将神经网络的学习功能用于模式识别 [2] ; 在六七十年代, 符号主义的逻辑表示发展迅速, 大批基于符号主义思想的专家系统先后问世; 行为主义最早在四五十年代以控制论思想出现, 其主要代表性理论是遗传算法和强化学习等 [3] . 虽然在不同时期受限于软硬件条件, 3 大主义具有不同的主导地位, 但其在彼此竞争中又相互借鉴依存, 共同推进了人工智能的蓬勃发展. 如今, 联结主义以深度学习之名复苏, 成为当前人工智能领域的主流, 已广泛应用于图像识别 [4]、语音识别 [5]、语义理解 [6]、社交网络分析 [7] 等领域.

然而, 现有的基于人工神经网络的深度学习网络结构还远不及生物神经网络结构复杂, 仅是对生物神经系统的初级模拟 [8] . 其功能大多局限于感知与理解层面, 在推理、决策等认知层面上的研究尚在擿埴索涂, 大大限制了人工智能应用落地. 传统人工智能技术所能解决的问题具有大量可以借鉴学习的训练集; 同时, 神经网络所能获取到的信息通常是完备的, 网络根据输入信息经过训练后给出一个简单的判决; 而且大多需要运行在高性能服务器上, 对计算资源和能耗的开销极大. 对于智能机器人、无人系统等迫切需要智能化提升的领域, 进行神经网络训练时往往没有足够的数据, 且数据信息难以覆盖复杂多变的任务工况及外界环境. 此外, 在复杂时变的外界环境中, 机器人所携带的传感器数量有限且所获取的感知数据往往存在大量噪声及不确定性, 并且难以准确、完备地获取外界及自身的状态, 造成机器人依据这种状态所做出的决策也常常具有偏差, 不能有效地完成任务甚至保证自身安全. 同时, 由于能源及载荷重量所限, 机器人所携带的微处理器处理速度及精度较差, 无法有效运行大型神经网络. 这些不利因素进一步制约了智能机器人的发展与应用, 因此迫切需要可以在复杂时变且充满不确定性的环境中, 利用有限计算资源, 实现高效决策并准确完成任务的方法和机制.

人类却可以在上述场景中做出迅速而适宜的判断或决策. 例如, 经验丰富的飞行员在飞机遇险时面对低温、缺氧、烈风的恶劣环境, 迅速做出反应, 驾驶飞机安全迫降; 身经百战的警察可以依靠短短几十秒的监控视频迅速锁定嫌疑人; 训练有素的乒乓球运动员可以在零点几秒内判断乒乓球的落点、走向并作出反击 [9] . 由此可见, 人类可以在仅接受少量信息后, 迅速做出决策, 甚至在复杂紧张、高强度的对抗中作出超越人类反应极限的判断与决策的能力. 这种能力又往往是无意识的、或难以具体描述的, 在不同个体的表现上存在较大差异且往往出现于个体自身较为熟悉擅长的领域, 此种能力通常被称为直觉[10] . 直觉思维是指不受某种固定的逻辑规则约束而直接领悟事物本质的一种思维形式[11] . 它具有迅捷性、直接性、本能意识等特征, 作为一种心理现象贯穿于日常生活之中, 也贯穿于科学研究之中. 很多科学家都认为它在科学研究等创造性思维活动的关键阶段往往起着极为重要的作用. 正如爱因斯坦曾指出: “直觉的应用超越了智力的应用, 众所周知, 创新往往是直觉战胜逻辑的胜利. ” [12] 德国化学家凯库勒 (Friedrich A. Kekule) 依据梦中蛇咬尾巴这一启示发现了苯环的结构就是一个典型实例, 并体现了 “直觉不是对形象的感知, 而是思想的除蔽与觉悟, 是概念性劳动, 包括寓言式概念 (如凯库勒环)” [13]

汉语 “直觉” 出自鲁迅《花边文学 · 算账》: “但我直觉的感到, 这恐怕是折了本, 比用庚子赔款来养成几位有限的学者, 亏累得多了. ” 在我国古代的道家、儒家、佛家均已意识到直觉的存在并提出运用直觉思维认识世界. 其中, 道家是最先提出并运用直觉思维认识世界的. 道家认为 “道” 是宇宙的本体, 但 “道” 作为无形无名的绝对, 是不能用概念所认识的, 只能靠直观或体悟 [14] . Pondy [15] 指出, 进行战略决策时必须同时考虑理性过程与直觉过程. 例如在高速环境中, 通过直觉可以在没有数据或先例的情况下做出决策 [16] . 在这种环境下, 人类主要面对的挑战是收集信息的时间限制与不稳定环境本身需要大量数据之间的矛盾, 并且数据往往又是缺乏足够可靠性的. 而直觉的方法可以与先前习得的经验结合, 并将在决策过程中发挥关键作用 [17] . 在对抗激烈的运动中, 直觉同样发挥着不可替代的作用. 对球类等运动的研究表明, 在竞争激烈、攻防转换迅速的比赛中, 运动员面临巨大压力下, 在对对手进行准确的预判时, 往往倾向于发挥直觉决策的能力 [18] . 虽然在运动中与企业管理中应用的直觉场景不同, 但这几类场景具有一定的相似性, 即决策条件与环境变化很快以至于决策者不能用常规的逻辑推理给出答案 [19] , 而经验丰富的人类专家可以利用有限的信息在有限的时间里做出一个较为准确的决策. 这些实际案例都启发着我们, 需要探索这一能力产生的机理与实现的架构.

Agor [20] 进一步指出较为适合直觉决策的 5 类场景: (1) 工作环境具有高度不确定性; (2) 工作任务案例较少甚至无前例可循; (3) 解空间有多解, 每个解均有较好的事实依据; (4) 环境感知信息有限; (5) 没有感知到环境信息. 可见, 人类的直觉能力的应用场景, 与在时变复杂环境中执行任务的智能机器所面对的场景高度吻合. 运用直觉进行决策, 将会是提升机器人智能感知与决策能力的一种有效手段. 目前具备部分类似人类直觉能力的专用人工智能系统已经初现端倪, 比如谷歌的 AlphaZero. 但其表现出的直觉能力即所谓的游戏棋感, 源自于深度强化学习进行大量对弈后获得的价值估计, 并非依据人类直觉机理实现. 因此, 虽然 AlphaZero 在围棋比赛上取得良好成绩, 但不具备普适性、通用性. 显然, 如果可以让机器实现通用的类似甚至超过人类的直觉能力, 将有助于 AI 更好地服务于机器人与人类社会, 并进一步向强人工智能的目标迈进.

本文从人类直觉的定义、类型、特征以及机理等方面切入, 分析人类直觉产生的过程. 在此基础上, 设计实现了通用直觉架构的基本准则, 并分析了现有从管理学、决策论、计算机等领域所提出的直觉实现架构的特点与不足. 接着, 我们提出一种受人类直觉启发的, 利用计算机模拟实现人类直觉并可在复杂时变环境中利用包含大量噪声甚至不完备的信息进行快速而适宜决策的机器直觉的实现架构. 最后, 对机器直觉未来发展方向和应用领域进行了展望. 本文的结构安排如下: 第 2 节综述人类直觉的定义、类型, 各学科对直觉机理的研究现状以及直觉在人工智能领域的进展; 第 3 节设计了通用直觉架构准则并论述了不同学科对直觉架构的探索; 第 4 节介绍本文所提出的机器直觉架构; 第 5 节探讨机器直觉的关键技术、发展方向与面对的挑战; 第 6 节对本文进行总结与展望.

http://scis.scichina.com/cn/2020/SSI-2020-0075.pdf

更多请查阅文献：

翟鹏, 张立华, 董志岩, 等. 机器直觉. 中国科学: 信息科学, 2020, 50: 1475–1500, doi: 10.1360/SSI-2020-0075 Zhai P, Zhang L H, Dong Z Y, et al. Machine intuition (in Chinese). Sci Sin Inform, 2020, 50: 1475–1500, doi: 10. 1360/SSI-2020-0075

专知便捷查看