Acting in human environments is a crucial capability for general-purpose robots, necessitating a robust understanding of natural language and its application to physical tasks. This paper seeks to harness the capabilities of diffusion models within a visuomotor policy framework that merges visual and textual inputs to generate precise robotic trajectories. By employing reference demonstrations during training, the model learns to execute manipulation tasks specified through textual commands within the robot's immediate environment. The proposed research aims to extend an existing model by leveraging improved embeddings, and adapting techniques from diffusion models for image generation. We evaluate our methods on the CALVIN dataset, proving enhanced performance on various manipulation tasks and an increased long-horizon success rate when multiple tasks are executed in sequence. Our approach reinforces the usefulness of diffusion models and contributes towards general multitask manipulation.


翻译:在人类环境中执行动作是通用机器人必须具备的关键能力,这要求机器人对自然语言及其在物理任务中的应用具有鲁棒的理解。本文旨在利用扩散模型的能力,构建一个融合视觉与文本输入的视觉运动策略框架,以生成精确的机器人轨迹。通过在训练过程中使用参考演示,模型学习根据文本指令在机器人即时环境中执行操作任务。本研究旨在通过利用改进的嵌入表示,并借鉴图像生成扩散模型的技术,对现有模型进行扩展。我们在CALVIN数据集上评估了所提方法,证明了其在多种操作任务上的性能提升,以及在连续执行多个任务时长期成功率提高。我们的方法进一步验证了扩散模型的实用性,并为通用多任务操作研究做出了贡献。

0
下载
关闭预览

相关内容

语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员