关于交互与关系推理的研究在人工智能(AI)领域中具有核心地位,也是人类智能的关键体现。随着大数据时代的到来与AI技术的不断进步,我们如今能够从大量场景中提取多模态、高维度的数据。本文围绕如何分析并研究此类数据的特征、揭示其潜在的低维表示与交互特征,并在包括机器人技术、场景分析和生物医学等多个下游应用中加以利用,展开深入探讨。

从方法论与建模角度出发,本文提出神经交互模型可借鉴生物神经网络的特性,并抽象为“小世界网络(small-world network)”模型。进一步探讨此类拓扑交互结构能否应用于人工神经网络与深度学习模型中。在此基础上,作者设计了 社区通道网络(Community Channel Network, CC-Net),将小世界网络结构嵌入到卷积神经网络(CNN)中,从而提升模型在表示学习中的效率与自适应能力。 本文还将这一研究理念扩展至多模态场景下的交互建模,涵盖宏观与微观两个层面: * 宏观交互 主要涉及人与外部环境的大尺度交互,常以显式的交互对呈现于真实场景中。研究包括:

人机交互(Human-Robot Interaction):提出一个统一的交互学习与多模态学习框架,并将其应用于真实厨房场景中,机器人通过收集视频、音频等多模态数据,感知容器内液体体积、容器类型、食物类别等关键信息,为家庭辅助机器人部署提供支持。 1. 人-物交互(Human-Object Interaction, HOI):研究自然图像中的HOI,针对数据分布随时间变化问题,开发出一种高效的对象检测与交互分类方法,以缓解模型遗忘,并助力场景理解与机器人任务。 1. 人-传感器交互(Human-Sensor Interaction):设计一种基于深度学习的时序分析方法,通过采集跑步过程中惯性测量单元(IMU)信号,分析跑者的生物力学参数与表现水平,有助于提升运动表现和康复训练的个性化程度。 * 微观交互 则聚焦于化合物分子层面的细粒度交互,常见于可控实验室环境。作者重点研究了分子性质预测问题,开发了一套评估基准,测试各种预训练图模型在**分布外(Out-of-Distribution, OOD)**场景中的表现,例如分子骨架、分子大小或实验条件的变化。研究结果显示,预训练模型在OOD场景下表现出较强的鲁棒性,优于如解耦学习等特定设计方法,为分子图预测任务提供了一种高效、可推广的解决方案。

展望未来,本文的研究为进一步探索与发展提供了多条路径。CC-Net在提升表示学习方面展现出的高效性与适应性,为构建更接近人类神经处理机制的先进AI模型奠定了基础。在人机交互与HOI方向的成果则预示着更自然、响应更灵敏的AI系统将逐步进入现实生活,从自动视频分析到智能机器人助理。人-传感器分析与分子属性预测的成功应用,展示了所提模型在体育科学、制药等多领域的广泛适用性。同时,预训练模型在高数据变异性场景下的稳健表现,也揭示了AI在实际复杂环境中应用的巨大潜力。

综上所述,本文不仅深化了对多模态与交互表示学习的理解,也为后续将这些研究成果整合进真实应用系统打下了坚实基础。

https://scholars.cityu.edu.hk/en/theses/theses(ae6c462a-ab58-4e1b-a59c-fdc3d7d23d9d).html![] (https://cdn.zhuanzhi.ai/vfiles/09a3f5b17cc388d8c5eb60f955d2f5d4)

成为VIP会员查看完整内容
3

相关内容

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
【博士论文】解释大型视觉模型方面的进展
专知会员服务
25+阅读 · 2月7日
【博士论文】复杂场景下高精度有向目标检测的研究
专知会员服务
50+阅读 · 2023年12月1日
【MIT博士论文】优化理论与机器学习实践
专知会员服务
94+阅读 · 2022年6月30日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
63+阅读 · 2021年12月1日
专知会员服务
56+阅读 · 2020年12月20日
专知会员服务
52+阅读 · 2020年12月19日
专知会员服务
82+阅读 · 2020年12月18日
清华大学:从单体仿生到群体智能
专知
17+阅读 · 2022年2月9日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
166+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】解释大型视觉模型方面的进展
专知会员服务
25+阅读 · 2月7日
【博士论文】复杂场景下高精度有向目标检测的研究
专知会员服务
50+阅读 · 2023年12月1日
【MIT博士论文】优化理论与机器学习实践
专知会员服务
94+阅读 · 2022年6月30日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
63+阅读 · 2021年12月1日
专知会员服务
56+阅读 · 2020年12月20日
专知会员服务
52+阅读 · 2020年12月19日
专知会员服务
82+阅读 · 2020年12月18日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员