【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

人类在日常生活中通过多种感官与环境互动：视觉用于感知和理解环境，身体意识用于定位，语言用于交流和语义理解，触觉则用于接触反馈。同样地，机器人在面对非结构化的真实世界环境中的操作任务时，也需要具备类似的多感官整合能力。

本论文探讨了如何融合多种感知输入，以提升机器人在现实世界中操纵物体的能力。通过整合视觉（为机器人提供详细的空间信息）、本体感觉（提供身体位置反馈）、语言（理解并执行指令）以及触觉（提供精细接触信息），我开发了安全、高效且具有良好泛化能力的机器人系统。论文中的研究贡献涵盖多个方向，包括：感知-运动控制、运动规划、模仿学习、机械搜索、富接触操作任务以及多模态对齐，整体目标是提升机器人在跨模态感知、推理与行动能力，突破单一感知模态的局限。研究首先从视觉与本体感知的融合出发，以增强机器人在分布偏移条件下的控制鲁棒性，并通过基于扩散模型的轨迹生成方法提升规划效率。接着，提出了一种基于**“下一个 token 预测”机制的上下文模仿学习方法**，使机器人能通过 prompt（提示）快速适应新任务。随后，论文将视觉与语言的融合引入到遮挡物体的机械搜索与通用操作任务中。借助大型视觉-语言模型（Vision-Language Models），实现了更强的语义推理能力，从而获得更有效的操作策略。进一步地，我研究了触觉传感在高精度操作任务（如工业插接与布料处理）中的应用，提出了自监督策略学习与视觉-触觉预训练方法，显著提升了任务成功率。最后，我构建了一个新的对齐视觉、触觉与语言的多模态数据集，以支持机器人领域的多模态学习研究。通过理论分析、仿真实验与真实机器人实验，本论文全面展示了多模态感知如何增强机器人操作任务中的泛化能力、适应性与安全性。 https://www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

专知会员服务

0+阅读 · 今天15:21

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

26+阅读 · 5月16日

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

专知会员服务

22+阅读 · 4月1日

【CUHK博士论文】大规模3D神经形状建模：表示、生成与可控性

专知会员服务

18+阅读 · 1月29日