关于交互与关系推理的研究在人工智能(AI)领域中具有核心地位,也是人类智能的关键体现。随着大数据时代的到来与AI技术的不断进步,我们如今能够从大量场景中提取多模态、高维度的数据。本文围绕如何分析并研究此类数据的特征、揭示其潜在的低维表示与交互特征,并在包括机器人技术、场景分析和生物医学等多个下游应用中加以利用,展开深入探讨。
从方法论与建模角度出发,本文提出神经交互模型可借鉴生物神经网络的特性,并抽象为“小世界网络(small-world network)”模型。进一步探讨此类拓扑交互结构能否应用于人工神经网络与深度学习模型中。在此基础上,作者设计了 社区通道网络(Community Channel Network, CC-Net),将小世界网络结构嵌入到卷积神经网络(CNN)中,从而提升模型在表示学习中的效率与自适应能力。 本文还将这一研究理念扩展至多模态场景下的交互建模,涵盖宏观与微观两个层面: * 宏观交互 主要涉及人与外部环境的大尺度交互,常以显式的交互对呈现于真实场景中。研究包括:
人机交互(Human-Robot Interaction):提出一个统一的交互学习与多模态学习框架,并将其应用于真实厨房场景中,机器人通过收集视频、音频等多模态数据,感知容器内液体体积、容器类型、食物类别等关键信息,为家庭辅助机器人部署提供支持。 1. 人-物交互(Human-Object Interaction, HOI):研究自然图像中的HOI,针对数据分布随时间变化问题,开发出一种高效的对象检测与交互分类方法,以缓解模型遗忘,并助力场景理解与机器人任务。 1. 人-传感器交互(Human-Sensor Interaction):设计一种基于深度学习的时序分析方法,通过采集跑步过程中惯性测量单元(IMU)信号,分析跑者的生物力学参数与表现水平,有助于提升运动表现和康复训练的个性化程度。 * 微观交互 则聚焦于化合物分子层面的细粒度交互,常见于可控实验室环境。作者重点研究了分子性质预测问题,开发了一套评估基准,测试各种预训练图模型在**分布外(Out-of-Distribution, OOD)**场景中的表现,例如分子骨架、分子大小或实验条件的变化。研究结果显示,预训练模型在OOD场景下表现出较强的鲁棒性,优于如解耦学习等特定设计方法,为分子图预测任务提供了一种高效、可推广的解决方案。
展望未来,本文的研究为进一步探索与发展提供了多条路径。CC-Net在提升表示学习方面展现出的高效性与适应性,为构建更接近人类神经处理机制的先进AI模型奠定了基础。在人机交互与HOI方向的成果则预示着更自然、响应更灵敏的AI系统将逐步进入现实生活,从自动视频分析到智能机器人助理。人-传感器分析与分子属性预测的成功应用,展示了所提模型在体育科学、制药等多领域的广泛适用性。同时,预训练模型在高数据变异性场景下的稳健表现,也揭示了AI在实际复杂环境中应用的巨大潜力。
综上所述,本文不仅深化了对多模态与交互表示学习的理解,也为后续将这些研究成果整合进真实应用系统打下了坚实基础。
https://scholars.cityu.edu.hk/en/theses/theses(ae6c462a-ab58-4e1b-a59c-fdc3d7d23d9d).html![] (https://cdn.zhuanzhi.ai/vfiles/09a3f5b17cc388d8c5eb60f955d2f5d4)