人类在日常生活中通过多种感官与环境互动:视觉用于感知和理解环境,身体意识用于定位,语言用于交流和语义理解,触觉则用于接触反馈。同样地,机器人在面对非结构化的真实世界环境中的操作任务时,也需要具备类似的多感官整合能力

本论文探讨了如何融合多种感知输入,以提升机器人在现实世界中操纵物体的能力。通过整合视觉(为机器人提供详细的空间信息)、本体感觉(提供身体位置反馈)、语言(理解并执行指令)以及触觉(提供精细接触信息),我开发了安全、高效且具有良好泛化能力的机器人系统。 论文中的研究贡献涵盖多个方向,包括:感知-运动控制运动规划模仿学习机械搜索富接触操作任务以及多模态对齐,整体目标是提升机器人在跨模态感知、推理与行动能力,突破单一感知模态的局限。 研究首先从视觉与本体感知的融合出发,以增强机器人在分布偏移条件下的控制鲁棒性,并通过基于扩散模型的轨迹生成方法提升规划效率。接着,提出了一种基于**“下一个 token 预测”机制的上下文模仿学习方法**,使机器人能通过 prompt(提示)快速适应新任务。 随后,论文将视觉与语言的融合引入到遮挡物体的机械搜索与通用操作任务中。借助大型视觉-语言模型(Vision-Language Models),实现了更强的语义推理能力,从而获得更有效的操作策略。 进一步地,我研究了触觉传感在高精度操作任务(如工业插接与布料处理)中的应用,提出了自监督策略学习视觉-触觉预训练方法,显著提升了任务成功率。 最后,我构建了一个新的对齐视觉、触觉与语言的多模态数据集,以支持机器人领域的多模态学习研究。 通过理论分析、仿真实验与真实机器人实验,本论文全面展示了多模态感知如何增强机器人操作任务中的泛化能力、适应性与安全性https://www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html

成为VIP会员查看完整内容
7

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【机器学习】深入剖析机器学习中的统计思想
产业智能官
16+阅读 · 2019年1月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员