多智能体系统在全球范围内广泛存在,从基础科学研究中的纯物理系统到前沿技术中的复杂自主系统。在这些系统中,成功预测智能体的未来行为可以为潜在结果提供有价值的前瞻性洞察,并为推进自动化决策奠定坚实基础,从而释放出更智能、更安全、更高效的智能体和系统的潜力。例如,在实际应用中,行为预测对于自动驾驶汽车的部署和商业化具有重要意义。通过准确预测其他车辆和行人的行为,可以提高自主系统的安全性和可靠性,从而实现更顺畅的导航并减少事故发生。本论文提出了一系列预测方法,旨在实现一个基础研究目标:通过有效的交互建模,达成精确、稳健和可靠的行为预测。具体而言,本论文设计了一系列方法,专注于多智能体交互中的三个挑战性方面:交互全面性、交互稳健性和交互一致性。所提出的预测方法适用于各种多智能体系统,并能实现高效的预测性能。
我们的第一项工作旨在全面建模行为交互,并设计专门的网络结构来更全面地建模交互关系,这对于精确的未来行为预测至关重要。这项工作提出了一种动态组感知网络,称为DynGroupNet,用于捕获和分析时间变化的成对和组间交互关系,通过关系推理克服了现有工作中静态、成对交互及其有限关系推理的局限性。DynGroupNet 学习了一个多尺度超图,该超图由一系列超图组成,能够在多个组大小中建模组间交互,以捕获成对交互和组间交互。多尺度超图进一步在拓扑结构和表示上演化为动态超图,以捕获动态交互。为了推理智能体交互,DynGroupNet 利用一种三元素表示格式,可以反映交互组中的交互强度和类别。大量实验结果表明,所提出的方法能够捕获时间变化的组行为,并在预测过程中推断时间变化的交互类别和交互强度。此外,该方法在各种真实数据集上的轨迹预测任务中显著优于最新的技术方法。
第一项工作在假设数据干净的基础上研究交互建模,但现实世界应用中通常涉及被破坏的数据,这可能显著降低交互建模的效果。因此,第二项工作研究了在存在数据损坏情况下的稳健预测和交互建模,并设计了一种模型学习框架以解决该问题。该工作提出了一种辅助学习框架,将主要预测任务与额外的辅助任务结合起来学习,并将其应用于基于3D骨骼的人体运动预测。在辅助任务中,部分身体关节的坐标被通过屏蔽或添加噪声进行损坏,目标是恢复损坏的坐标。通过引入辅助任务,具有交互建模的预测的稳健性得以提高,能够处理数据损坏,同时捕获身体关节坐标间的复杂时空交互。为适应辅助任务,设计了一种新型的辅助任务适配的Transformer网络,用于处理不完整或损坏的运动数据。大量实验评估表明,该方法在各种数据集上的短期和长期人体运动预测中均显著优于最先进的方法,并具有更强的稳健性。
最后,针对行为一致性建模这一第三个挑战性方面,第三项研究聚焦于多智能体行为预测中一个关键但常被忽略的方面:确保预测在欧几里得几何变换下的等变性,同时保持智能体交互的不变性,以确保在不同观察视角下实现一致且可靠的预测。为理论上保证这一特性,提出了EqMotion,这是一种高效的等变行为运动预测模型,具有不变的交互推理能力。EqMotion 包含等变几何特征学习模块,用于学习可进行欧几里得变换的等变特征,以及不变模式特征学习模块,用于捕获不变模式。这两个模块协同工作以增强网络表达能力。为了推理智能体间的交互,开发了一种不变交互推理模块,用于推断不变交互图,从而确保更稳定的交互分析。大量实验结果表明,该方法在多种场景中普遍适用,并在所有任务中达到了最先进的性能。此外,所提出的方法具有高数据效率,仅通过小规模数据即可获得高性能,同时模型体积较小,具有轻量化特点。