面向具身智能的多模态数据存储与检索：综述

摘要—具身人工智能（Embodied AI, EAI）智能体持续与物理世界交互，产生海量且异质性的多模态数据流，而传统的数据管理系统难以有效应对这一挑战。在本综述中，我们首先系统性地评估了五类存储架构（图数据库、多模型数据库、数据湖、向量数据库以及时序数据库），重点分析了它们在满足 EAI 核心需求方面的适用性，包括物理具身性（physical grounding）、低延迟访问以及动态可扩展性。随后，我们探讨了五类检索范式（基于融合策略的检索、基于表征对齐的检索、基于图结构的检索、基于生成模型的检索以及基于高效优化的检索），揭示了在实现长期语义一致性与保持实时响应性之间的根本张力。在这一全面分析的基础上，我们识别出若干关键瓶颈，从基础性的**物理具身鸿沟（Physical Grounding Gap）**到跨模态融合、动态适应与开放世界泛化等系统性挑战。最后，我们提出了前瞻性的研究议程，包括面向物理的感知数据模型、自适应的存储-检索协同优化以及标准化基准测试，以推动未来面向 EAI 的系统性数据管理解决方案的发展。本综述基于对 180 余篇相关研究的全面梳理，旨在为下一代自主具身系统所需的稳健、高性能数据管理框架提供严格的设计路线图。 关键词—具身人工智能，多模态数据存储，多模态数据检索

1 引言

在人工智能的各个子领域中，具身智能（embodied intelligence）指的是那些通过直接与物理环境交互而进行学习的智能体。许多研究者认为，具身人工智能（Embodied AI, EAI）是实现通用人工智能（AGI）的关键 [1], [2]。与依赖抽象计算和大规模数据集的经典 AI 不同，具身 AI 更强调智能体在真实环境中执行与适应行为的能力 [3]。超越对话系统（如 ChatGPT）之外，AGI 的完整愿景还包括控制物理智能体并深入地与模拟和现实环境交互的能力 [4], [5], [6]。这类实体被称为 EAI 智能体，其物理形态差异极大（见图 1），从静态工业机械臂和仿生微型机器人，到复杂的人形机器人和移动平台。这种多样性并非表层差异，而是从根本上决定了每个智能体所生成并必须处理的多模态数据的性质与复杂度。模型的泛化能力在很大程度上受到训练数据规模和质量的影响。扩展规律（scaling laws）表明，更大的模型需要更多数据才能实现复杂的环境适应与稳健的任务泛化 [8]。然而，Lin 等人 [9] 发现，泛化能力与环境多样性和对象数量呈幂律关系。这表明，多样性往往比数量更为关键：一旦在每个环境或对象上的样例数量达到某一阈值，进一步增加演示样例所带来的收益会迅速递减。然而，EAI 的数据挑战并不仅仅在于规模。首先，智能体必须处理异质性的数据流，包括感知输入（如视觉、触觉）、运动指令以及环境反馈，并在连续循环中运行，以支持实时学习与适应 [3]。其次，EAI 智能体运行在复杂且动态的环境中，数据特征可能会不可预测地发生变化。这对数据的体量、质量和上下文相关性提出了严格要求，尤其是在自动驾驶等安全关键应用中。随着模型规模不断扩展，高质量数据的有效收集、管理与处理正逐渐成为制约该领域发展的核心瓶颈。从需要实时处理数 TB 传感器数据的自动驾驶车辆，到要求无瑕疵远程数据传输的外科手术机器人，具身智能已经在广泛的数据密集型应用中得到体现。这些典型场景凸显了对先进的多模态数据存储与检索技术的迫切需求——这正是本文综述的研究重点。

1.1 研究动机与目标

具身 AI 与多模态数据管理相关文献的快速增长凸显了本综述的必要性（趋势如图 2 所示）。这两个快速发展的研究领域在交汇点上亟需系统性的回顾与梳理。本文综述旨在系统性审视面向具身智能的多模态数据存储与检索方法，综合近期进展并强调未来关键研究机遇。本文的主要贡献包括： 1. 填补研究空白：尽管具身智能高度依赖多模态数据处理，但针对其交互性与物理具身特性的数据存储与检索综述仍十分有限。 1. 促进跨领域创新：我们探讨了已有的多模态数据方法如何被改造，以应对具身智能系统中的实时性、空间性和感知处理等独特挑战。 1. 明确未来方向：通过分析现有瓶颈，我们提出针对性的优化策略，并勾勒出未来研究的潜在路径。

为提供清晰的结构化视角，我们在表 1 中呈现了一份战略性总结。该表概述了关键技术范式、其在 EAI 中的战略角色、核心能力、权衡关系以及未来研究前沿，作为后续深入讨论的路线图。

1.2 论文结构

本文的后续结构安排如下： * 第 2 节：综述具身智能的基本概念，并分析其所生成数据的独特特征及处理需求； * 第 3 节：探讨多模态数据存储技术，评估不同架构和数据模型在 EAI 应用中的适用性； * 第 4 节：分析多模态数据检索的关键范式，重点考察其在语义理解、跨模态关联与实时性能方面的有效性； * 第 5 节：综合前文分析，讨论现有存储与检索技术在 EAI 领域中的总体挑战与开放问题； * 第 6 节：总结本文的核心发现，并展望未来的研究方向。