日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高效感知与综合理解手段, 是人工 智能领域的重要研究内容, 也是实现“通用人工智能”的关键之一. 近年来, 随着多模态时空数据 的海量爆发和计算能力的快速提升, 国内外学者提出了大量方法, 以应对日益增长的多样化需求.**然而, 当前的多模态认知计算仍局限于人类表观能力的模仿, 缺乏认知层面的理论依据. 本文从信 息论角度出发, 建立了认知过程的信息传递模型, 结合信容 (Information Capacity) 概念, 提出了 多模态认知计算能够提高机器的信息提取能力这一观点, 从理论上对多模态认知计算各项任务进 行了统一. 进而, 根据机器对多模态信息的认知模式, 从多模态关联, 跨模态生成和多模态协同这 三个方面对现有方法进行了梳理与总结, 系统地分析了其中的关键问题与解决方案. 最后, 结合当 前阶段人工智能的发展特点, 重点思考多模态认知计算领域面临的难点与挑战, 并对未来发展趋势 进行了深入分析与展望。
https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226
1. 引言
让机器像人类一样智能地感知周围环境并做出决策, 是人工智能的目标之一. 在对信息的 处理模式上, 人类与机器存在巨大差异. 为构建模拟人类认知模式的智能系统, 英国 Ulster 大学 的研究者在 2003 年将“认知计算”(Cognitive Computing) 的概念引入信息领域, 重点关注认知 科学与传统的视音频, 图像, 文本等处理之间互相联系的机理和机制, 并且开设了相应的教学课 程. 在本世纪初, X. Li 创立了 IEEE-SMC 认知计算技术委员会, 当时为认知计算给出的目标是: “Cognitive Computing breaks the traditional boundary between neuroscience and computer science, and paves the way for machines that will have reasoning abilities analogous to a human brain. It’s an interdisciplinary research and application field, and uses methods from psychology, biology, signal processing, physics, information theory, mathematics, and statistics. The development of Cognitive Computing will cross-fertilize these other research areas with which it interacts. There are many open problems to be addressed and to be defined. This technical committee tackles these problems in both academia and industry, and focuses on new foundations/technologies that are intrinsic to Cognitive Computing1) .”十几年来, 认知计算逐渐受到各领域学者的关注。
在现实生活中, 人类利用视觉, 听觉, 触觉等多种感官认识世界, 不同感官刺激交融形成统一的 多感觉体验. 这种多感官协作对于机器而言即为“多模态”. 认知神经学研究[1] 表明, 一类感官刺激 可能会作用于其他感官通道, 这种现象被称为“联觉”(Synaesthesia). 2008 年, Li 等人在“Visual Music and Musical Vision[2]”一文中首次将联觉引入信息领域, 并从信息度量角度计算多模态数据 的关联, 尝试性地探讨了“多模态认知计算”的理论及应用. 随着人工智能第三次发展高潮的影响 逐渐深化, 多模态认知计算迎来了新的发展机遇, 成为航空航天, 智能制造, 医疗健康等重大领域共 同关注的研究课题, 对推动我国人工智能战略发展具有重要意义. 在国内, 相应的研究和探索也有较 长的历史和积累, 有很多顶尖的研究团队. 2008 年, 国家自然科学基金委员会设立的重大研究计划 “视听觉信息的认知计算”, 实施以来取得了丰硕成果. 2017 年, 国务院印发了《新一代人工智能发 展规划》, 明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”, 研究“以自然 语言理解和图像图形为核心的认知计算理论和方法”. 当前, 多模态认知计算研究已从学术牵引转 化为需求牵引, 在图像, 视频, 文本, 语音等海量多模态数据和强大算力的支撑下, 国内外各大知名企 业与研究机构纷纷加入此项研究中. 然而, 在蓬勃发展的背后, 多模态认知计算的理论机理仍不明确. 认知神经学家提出了大量理论与假设来刻画人类对多感知模态的认知过程. 而在信息领域, 多模态 认知计算仍停留在人类认知的观察和模仿阶段, 缺乏机理性解释与统一的学习理论框架.
本文尝试以认知为切入点, 阐释多模态认知计算的理论意义. 认知是人类从现实世界中提取并 加工信息的过程, 外界信息通过视, 听, 嗅, 味, 触等多种感知通道传送到大脑, 对大脑皮层产生刺激. 神经科学相关研究[3] 表明, 多种感官刺激的联合作用会产生“整体大于局部之和”的效果. 例如, 在 观看影视剧时, 画面和声音的同时刺激会给人类带来深刻, 全面的感受, 也帮助人类更准确地理解影 视内容. 这种现象是如何产生的? 认知科学研究[4] 指出, 人类在接收外界刺激时会选择性地关注其 中的一部分. 这种“注意力机制”作为人类认知能力的重要组成部分, 有效提高了信息加工的效率. 当影视画面与声音同步时, 人类的注意力并不会被分散, 而会集中在影视剧中发生的事件上, 视觉与 听觉感官同时得到了关注. 基于上述观察, 本文提出以下假设:当同一事件引起多种感官的同步刺 激时, 不同感官通道共享注意力, 人类可以感知更多信息. 从认知计算角度出发, 本文利用信息论的 理论对上述假设进行建模. 信息论奠基人 C. Shannon 在 1948 年的文章“A Mathematical Theory of Communication”中提出了信息熵的概念, 用其表示随机变量的不确定程度, 为信息量的度量提供 了解决方案. 根据信息熵定义, 假设事件空间 X 的概率分布已知, 事件 x 的概率为 p(x), 其所带来 的信息量为
事件的概率越小, 其发生所提供的信息量越大. 例如, 红色天空比蓝色天空出现的概率小, 一般来说 其信息量也就相对更大. 同时, 在不同认知任务中, 事件的发生概率存在差异, 提供的信息量也有所区别. 例如, 红色天空为气象学研究带来的信息量要高于其对心理学研究提供的信息量. 对于给定认 知任务 T, 事件 x 提供的信息量为
从公式 (4) 中可看出, 当注意力集中在模态密集的时空事件时, 获取的信息量达到最大值. 因此, 个 体可以利用多模态时空数据获取更多信息
近年来, 注意力机制在计算机视觉, 自然语言处理等领域的广泛应用, 证明了对特定事件的关注 有助于提高机器的学习能力, 而多模态学习的成功也印证了多模态时空数据联合方面的优势. 因此, 公式 (4) 中的模型可以尝试解释多模态认知计算的内在机理, 刻画机器从数据中提取信息的过程. 然而, 是否获取到的信息量越大, 机器就越接近人类的认知水平? 当前, M6[11] , CLIP[12] 等通用多模 态学习模型已经在特定任务上取得了接近于人类的效果. 如表1所示, 这些模型往往需要千万级的训练数据, 与人类认知能力还存在很大差距. 将单位数据的信息提供能力定义为“信容”(Information Capacity)[13] , 与此对应, 机器的认知能力即为从单位数据获取最大信息量的能力:
其中 D 为事件空间 X 的数据量. 因此, 可以从三方面提升机器的认知能力:(1) 优化 A, 即使机器 获得更大信息量; (2) 增大 I, 即利用对于给定任务信息量更大的数据; (3) 减小 D, 即减小数据量. 利用尽可能少的数据实现信息量的最大化, 即代表了更强的认知能力. 因此, 本文围绕以上三个共性 关键问题, 以提升机器认知能力为核心, 对多模态关联, 跨模态生成和多模态协同三个基本任务进行 了梳理, 如图1所示. 具体如下: (1) 多模态关联是提高 ρ 的基础. 它通过挖掘不同子模态事件在空间, 事件, 语义层面的内在一 致性, 将子模态事件映射到统一的信息空间, 实现多模态的对齐, 感知与检索识别. 通过多模态关联, 可以挖掘不同模态间的对应关系, 以进一步提升认知能力. (2) 跨模态生成通过增大 I, 减小 D 来提升 ρ. 它将信息以模态为载体进行传输, 利用不同模态 的差异性, 对已知信息进行跨模态的合成与转换. 在跨模态合成中, 利用更加直观, 易于理解的模态 对信息进行丰富和补充, 增大 I. 在跨模态转换中, 寻找更加简洁的表达形式, 在保留信息的同时, 减 小 D, 以此提升信息获取能力. (3) 多模态协同通过优化 A 以实现信息量 K 最大化. 它利用不同模态间的关联与互补, 探究高 效, 合理的模态间联合机制, 优化 A. 通过学习以图像, 视频, 文本, 语音为代表的多模态数据的一致 性表达, 实现信息的融合与增强以提升在任务 T 上的性能.
反观人类认知, 认知的提升离不开对现实世界的联想, 推理, 归纳与演绎, 与多模态认知计算中 的关联, 生成, 协同对应. 本文将人类与机器的认知学习统一为提高信息利用率的过程. 随着人工智 能的影响逐渐深化, 多模态认知计算的研究向深度和广度飞速拓展. 作为多模态认知计算的三条主 线, 多模态关联, 跨模态生成和多模态协同是提升机器认知能力的有效途径, 已成为国内外科研人员 密切关注的研究热点. 本文对相关工作展开详尽的调研和介绍, 系统性地梳理了多模态关联, 跨模态 生成和多模态协同的历史沿革和发展现状, 深入地讨论了多模态认知计算领域面临的机遇和挑战, 并 对其未来的发展方向和路径进行了思考与展望.
本文的组织框架如下:第二节, 介绍了多模态关联任务的发展现状, 分为多模态对齐, 多模态感 知和多模态检索三个部分, 并进行分析与讨论; 第三节, 介绍了跨模态生成任务中的跨模态合成和跨 模态转换方法, 并进行分析与讨论; 第四节, 从模态融合和联合学习两个方面介绍多模态协同任务, 并进行分析与讨论; 第五节, 对多模态学习面临的挑战和未来发展趋势进行探讨与展望; 第六节, 围 绕多模态认知计算中的开放问题展开设想; 第七节, 对全文进行总结。
**2 多模态关联 **
多模态感知与学习, 通常是通过对同一个实体或时空事件在不同模态空间内予以阐述或描述, 从 而得到不同模态的数据. 例如, 采用 RGB-D 相机对同一场景进行拍摄而得到 RGB 彩色图像描述和 Depth 深度距离描述; 采用摄像机对说话人进行语音采集得到其说话内容的语音信息和相对应的唇 部运动信息, 这些多模态描述能够更全面的刻画同一客观实体的多维度信息, 从而提升模型的理解与 认知能力. 由于不同模态在表征同一客观实体时所能获得的信息量是不同的, 例如, 在上述对说话信 息表征时, 语音获取的说话内容信息量一般要高于从视觉唇部获取的信息量. 虽然不同模态所获得 的信息量是不同, 但是因为它们表述的是同一客观实体, 因此其所获得的信息是存在较强关联关系 的, 如发出不同的音素时, 其唇部的视觉运动表现是不同的. 因此, 为了有效刻画多种模态信息间的 关联, 需要对不同模态所获得的信息量进行有效分析与对齐, 进而实现高质量的多模态感知与学习. 即在对不同模态所获取的信息量进行联合感知求和基础上, 需进行高质量的信息关联与对齐, 从而为 后续的多模态感知与检索奠定基础. 例如, 对于模态 i 和 ˜i, 基于不同模态所获得的信息量, 通过特定 函数 f(·), 实现不同模态信息量的关联对应, 即
通过优化不同模态所获取信息间的关联目标 f(·), 实现不同模态间关联关系的获取. 本节从多模态 对齐, 多模态关联和多模态检索三方面阐述多模态关联相关工作. 其中, 多模态对齐是一类基础性需 求, 如图像区域内容和文字词汇的语义对齐, 视觉唇部运动与语音声素之间的时间对齐等. 在对齐的 基础上, 通过最大化模态间关联满足多模态感知, 检索等实际任务需求.
3. 跨模态生成
正常状态下, 人类的多通道感知和中枢思维系统使其具有天然的跨通道推理和生成能力. 例如, 阅读一段小说情节时脑海中会自然浮现相应的画面. 参考这一现象, 本文将多模态认知计算中跨模 态生成任务的目标定义为赋予机器生成未知模态实体的能力. 传统的机器生成任务通常在单一且固 定的模态上进行, 例如利用已知的一段对话生成后续情节[68] , 或利用已有图像合成一张新的图像[69] . 类比于此, 跨模态生成是涉及多种不同模态信息的实体生成过程, 利用多模态信息之间的一致性和补 充性来生成新模态下的事物. 从信息论的角度看, 跨模态生成任务促使不同模态之间通过信息流动, 提升个体在既定时空内可感知的信息量. 假设已知某实体已知 m 个模态信息 {X1, X2, · · · , Xm}, 跨 模态生成任务可以概括为
其中 Xp 是缺失待恢复的模态实体. 随着自然语言处理, 智能语音, 计算机视觉等技术的快速发展, 建立在文本, 语音, 图像, 视频上的跨模态生成任务层出不穷, 例如一句话生成图像[70] , 一段场景产生音频[71] 等. 这些不同模态对信息表达方式的不同, 对信息的传达能力有很大差异. 在绝大多数人的 认知世界中, 一定时空和目标条件下文本, 音频, 图像, 视频这些模态信号能传递的信息量是逐渐上 升的. 简单来说, 同一事物的声音比文字能直观传达的信息要更加丰富, 而图像相比声音更加直观一 些. 大多数情况下, 日常生活中广播比文字要更容易被多数人接纳; 当看到一张狗的照片时就比听到 这只狗的声音了解的更多; 而动态的视频带给人类的感受要更加深刻. 但同时, 同一事物用信息量丰 富的模态来描述时也占据更大的存储空间, 带来信息处理效率上的负担. 综合两方面因素, 本文从认 知计算的角度将跨模态生成任务的本质归纳为在多模态信息通道内提高机器认知能力的问题. 进一 步地, 可以将该任务划分为提高信息量 I 和减小数据量 D 两种方式, 即跨模态合成和跨模态转换两 大类. 下面详细介绍这两类跨模态生成技术.
4 多模态协同
归纳和演绎是人类认知的重要功能. 人类可以轻松自如地对视, 听, 嗅, 味, 触等多模态感知进行 归纳融合, 并进行联合演绎, 以做不同的决策和动作. 在多模态认知计算中, 多模态协同是指协调两 个或者两个以上的模态数据, 互相配合完成多模态任务. 为了实现更加复杂的任务并提升精度和泛化能力, 多模态信息之间要相互融合, 达到信息互补的目的. 呼应前文, 这本质上是对注意力 A 的优化:
进一步地, 融合后的多模态信息要进行联合学习, 以实现多模态信息对单一模态的超越, 即
信息量的增加可以提高单模态任务的性能, 也为开发创新性多模态任务提供了可能. 从生物学角度来看, 多模态协同和人类综合多种知觉作出反应是相似的. 近年来, 随着传感器技 术, 计算机硬件设备和深度学习技术的更新换代, 多模态数据的获取, 计算和应用也变得日新月异. 同时, 建立在视觉, 声音和文本等模态上的多模态协同研也究取得长足发展. 本章节重点总结了多模 态协同中的模态融合与联合学习方法. 其中, 模态融合分为前期, 后期和混合融合策略, 如图6所示. 联合学习根据其目的不同分为提升单模态任务性能和解决新的挑战性问题. 接下来, 本章节将分别 进行介绍。
**5 多模态认知计算的难点和未来发展趋势 **
近年来, 深度学习技术在图像处理, 自然语言处理等领域取得了长足的发展, 推动着多模态认知 计算向理论研究和工程任务的纵深发展. 在数据形式快速迭代和应用需求多元化发展的背景下, 多 模态认知计算也面临新的问题和挑战. 从宏观角度来看, 前述所有任务都是围绕公式 (5) 中的数据 (D), 信息量 (I) , 融合机制 (A) , 和任务 (T) 来提升机器认知能力 (ρ). 本章节将从以上四个方面对 多模态认知计算当前的难点进行剖析, 并对未来的发展趋势进行展望和思考.
6 开放性问题讨论
6.1 人类认知与人工智能如何结合?
目前, 多模态认知计算的发展如火如荼. 大多数研究工作聚焦在人工智能领域, 致力于对视听嗅 味触等多模态数据的分析, 以完成各种复杂任务. 在过去的几十年来, 人类的“联觉”, “知觉重塑” 和“多通道知觉”为多模态数据的关联、生成与融合提供了指导依据, 开启了多模态认知计算研究 的序章. 但是, 人类认知存在太多未知和不确定. 人类认知是如何形成的? 其背后的机理是什么? 目 前并不完全清楚. 缺乏认知进一步指导的多模态认知计算, 很容易陷入数据拟合的陷阱. 本文作者曾 在视觉与学习青年学者研讨会 (VALSE) 上作为联合组织者发起过相关的线上 (2020) 和线下研讨会 (2022) , 聚焦上述问题, 侧重从人类的多感官认知入手, 探究当前多模态相关研究与其的区别与联系. 未来, 多模态认知计算将如何迈向认知? 人类具有高可靠及较强泛化性能的多模态感知能力, 尤 其是当部分感官能力缺失的情形下, 能够通过其他感官对缺失的能力进行一定能出补充. 认知神经 科学家认为, 这种现象的潜在生理学基础可能是不同感官在信息编码中存在一个高级别语义的自组 织关联网络, 该网络与特定模态类型无关, 但是可以直接关联到不同模态中, 从而实现高效的多模态 感知. 对于多模态认知计算而言, 构建有效架构是提高多模态感知能力的关键一环. 本文认为, 可构 建以“元模态”为核心的模态交互网络, 学习与特定模态类型无关的内在属性, 从而最大化关联与对 齐不同的模态语义内容. 元模态指向一个紧致的低维空间, 可以实现到不同模态空间的投影, 从而具 备更加泛化的表征能力.
6.2 多模态数据带来了什么?
近年来, 结合多模态数据的人工智能确实取得了更好的性能表现. 这显而易见, 在合理的模型优 化方式下, 输入信息的增加往往会得到更好的结果. 但是, 再深入思考一下, 多模态数据到底带来了什么额外的信息, 又是如何提升性能的呢? 实际上, 多模态数据带来信息的同时, 也带来了大量噪声 和冗余, 会出现信容降低的问题, 增加模型学习压力. 这会导致某些情况下, 多模态数据的性能不如 单一模态. 本文尝试从信息的角度给出如上问题的解释. 多模态信息之间具有相似性与互补性. 其中, 相似 性部分是各个模态信息的交集, 即互信息, 代表了从不同模态描述同一场景的不同方面. 相似性部分 对场景进行了更加综合地描述, 可以达到“兼听则明”的效果, 提升模型场景理解的鲁棒性. 互补性 部分是各个模态信息的并集, 信息论里称为“联合熵”, 代表了不同模态之间的差异性, 也包含噪声 部分. 互补性部分是任一模态都不具备的, 它对单一模态的感知能力进行了拓展, 以获得更好的场景 理解性能, 达到模拟人类联觉的能力。
**6.3 多模态认知计算面临哪些真实场景? **
现有多模态认知计算研究大都集中在图像视频数据中, 聚焦视听模态的分析. 这主要得益于近 年来智能手机的普及和社交网络的快速发展, 使得图像视频数据爆炸式增长, 传播方式也日趋便利. 但是, 真实世界的多模态感知面临更加复杂的情况, 这里以机器人和临地安防为例. 机器人将是多模态认知计算的一个典型应用. 机器人的目的是像人类一样去感知去思考. 假设 一个机器人要在真实环境中进行多模态感知, 首先, 要对视听嗅味触传感器进行集成, 目前针对前端 传感器的研究明显不足. 然后, 感知要在三维空间中进行, 而不再是视频画面中进行, 这就要求具有 三维感知能力. 最后, 感知是在动态环境中进行, 会存在机器与环境, 各个模态与环境, 以及各个模态 之间的交互, 这也是以后研究中需要重点考虑的. 临地安防 (Vicinagearth Security) 也为多模态认知计算提供了广阔的应用前景. 随着低空空域 资源的逐渐释放和海洋开发能力的全面提升, 人工智能开始在涵盖低空, 地上, 水下的临地空间发挥 作用, 涉及搜救, 巡检等诸多安防问题. 以智能搜救为例, 无人机与地面无人设备的协同交互需要处 理不同传感器产生的大量数据, 多模态认知计算也成为解决此类任务的关键核心技术之一, 需要与跨 域智能交互, 涉水光学等研究课题紧密结合. 同时, 临地安防对实时性和高效性的要求也对多模态认 知计算提出了新的挑战. 在未来, 临地安防将成为多模态认知计算从理论走向应用的重要落地场景.
7 总结
信息领域的研究热点常常在获取—处理—反馈中迭代, 尤其前两者. 目前, 深度学习等处理方法 的发展如火如荼, 下一个热点很可能是数据获取, 那么多模态将会迈入新的发展阶段. 本文抛砖引 玉, 挂一漏万, 回顾了多模态认知计算的发展历程, 从理论, 方法和趋势三个方面展开分析与思考. 首 先, 构建信息传递模型刻画了机器从事件空间中提取信息的过程, 探讨了多模态认知计算的理论意 义. 然后, 阐述了多模态关联, 跨模态生成, 多模态协同三个主线任务的理论联系, 对各项任务进行了 统一. 通过对现有方法的分析与对比, 较为全面地展示了多模态认知计算的发展现状和关键技术. 进 而, 结合当前人工智能的发展背景, 从信息度量, 融合机制, 学习任务和数据获取等方面探讨了多模 态认知计算面临的挑战, 并讨论了未来值得探索的研究方向. 最后, 对多模态认知计算的开放性问题 进行了一些设想. 实际上, 人类能感知到的模态信息是有限的. 人类仅可以看到 400-700nm 的可见 光, 这是光谱中这很小的一部分; 只可以听到 20-20000Hz 的可闻声波, 这也是声波很小的一部分. 庆幸的是, 借助各种先进的光电设备, 我们感知到了可见光和可闻声波之外的更多信息. 未来, 随着感 知能力的进一步提升, 依托人类认知拓展物理感知边界, 实现信息域和认知域的统一, 是大势所趋. 希望本文能够为提升智能光电设备的感知能力和推动多模态认知计算的理论研究提供参考和启发。