三维空间理解在现实世界中的诸多应用场景中至关重要,例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来,大型语言模型(LLMs) 在多个领域中展现出惊人的成功,被逐步应用于增强三维理解任务,显示出有望超越传统计算机视觉方法的潜力。 在本综述中,我们系统回顾了将大型语言模型与三维空间理解相结合的方法,提出了一套分类体系,将现有方法划分为三大类: 1. 基于图像的方法:通过二维视觉数据推理三维信息; 1. 基于点云的方法:直接处理三维表示数据; 1. 多模态融合方法:结合多种数据模态进行三维理解。

我们分别从这三大类出发,对具有代表性的方法进行了系统性梳理,涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。 最后,我们讨论了当前面临的主要挑战,包括数据集匮乏与计算资源开销问题,并指出未来在空间感知、多模态融合与现实世界应用等方向上的研究潜力与发展前景。

大型语言模型(LLMs) 已从早期的基础神经网络演进为先进的 Transformer 架构模型,如 BERT [Kenton 和 Toutanova, 2019] 与 GPT [Radford, 2018],最初凭借海量文本数据的训练在语言任务上取得了卓越表现。然而,近年来的进展已将这些模型的能力扩展至纯语言处理之外,使其具备多模态理解能力(在本文中,LLMs 特指集成了多模态功能的语言模型)。其在捕捉复杂模式与关系方面的能力 [Chen 等, 2024a],正逐步展现出在空间推理任务中的潜力 [Ma 等, 2024b]。 将这些增强型模型应用于理解三维对象关系、空间导航等挑战,为推进机器人、计算机视觉与增强现实等领域带来了全新机遇 [Gao 等, 2024]。与此同时,三维数据与三维建模技术也取得了显著发展 [Ma 等, 2024c],在虚拟/增强现实、机器人、自动驾驶、游戏、医学影像等领域中得到了广泛应用。与传统二维图像相比,三维数据提供了更丰富的对象与环境视角,能够捕捉关键的空间关系与几何信息。这些信息对于场景重建、物体操作、自动导航等任务至关重要,而仅靠文本描述或二维表示往往难以传达必要的深度与空间语境。 LLMs赋能空间理解。将这两个领域——LLMs 所擅长的语言理解能力与三维数据所提供的空间真实感——相结合,有望实现具备上下文感知能力的高效系统。从语言角度看,现实世界中的描述常常涉及物体的空间排列、朝向或操作方式,然而,仅靠文本往往难以准确传达大小、形状或相对位置等信息,除非模型具备稳健的空间或视觉理解能力。因此,当前出现了越来越多的研究致力于赋予 LLMs “三维能力”,使其能够根据自然语言提示进行三维理解、推理,甚至生成三维表示。这种集成方法为多个领域带来令人期待的应用前景,例如:能够基于三维上下文更好地理解语言指令的机器人、能够通过文本快速原型化三维空间布局的建筑师、能够根据叙事描述生成沉浸式环境的游戏设计师,以及更多尚未被想象到的创意应用。 研究动机。尽管 LLMs 已被越来越多地应用于与三维相关的任务,并且 Ma 等 [2024b] 已对该领域进行了系统性综述,但该领域的快速发展在近期产生了大量新成果,亟需一份能够反映最新进展的综述,以捕捉最新的技术突破。将三维能力集成进 LLMs 仍面临诸多挑战,包括: 1. 高质量三维数据集的稀缺,远不如文本语料丰富; 1. 文本数据的序列性与三维空间数据的连续性之间的根本差异,这对模型架构提出了新的适配需求; 1. 处理大规模三维数据的计算资源开销巨大

虽然早期将语言与三维融合的尝试已显示出一定潜力,但目前的方法在适用范围、可扩展性与泛化能力方面仍存在限制,且大多为特定领域的解决方案,尚未具备类似文本 LLM 的广泛适应性。 本研究的贡献可以总结为以下三点: 1. 结构化分类体系:本研究区别于 Ma 等 [2024b] 的综述,提出了一个全新的视角,通过构建三类主要研究分支的结构化分类体系(见图 2),对当前成果进行重新组织,并前瞻性地分析了最新突破,突显了我们在方法论上的独特性与推动该领域发展的价值。 1. 系统性综述:基于所提出的分类方法,我们对 LLMs 在空间推理任务中的最新研究进展进行了系统梳理与评估。 1. 未来研究方向:我们总结了当前工作的主要局限性,并提出了若干具有前景的未来研究方向。

成为VIP会员查看完整内容
19

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
55+阅读 · 2024年5月28日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
39+阅读 · 2024年5月9日
大型语言模型高效推理综述
专知会员服务
62+阅读 · 2024年4月23日
面向资源受限环境的轻量级深度学习:综述
专知会员服务
52+阅读 · 2024年4月13日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
166+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
55+阅读 · 2024年5月28日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
39+阅读 · 2024年5月9日
大型语言模型高效推理综述
专知会员服务
62+阅读 · 2024年4月23日
面向资源受限环境的轻量级深度学习:综述
专知会员服务
52+阅读 · 2024年4月13日
相关资讯
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员