在机器人技术快速发展的背景下,双臂协调与复杂物体操作是构建先进自主系统的关键能力。然而,多样且高质量的演示数据以及贴近真实世界的评估基准的缺乏,严重制约了这一领域的发展。 为了解决这一问题,我们提出了 RoboTwin ——一个生成式数字孪生框架,利用三维生成式基础模型与大型语言模型,生成多样化的专家数据集,并提供面向双臂机器人任务、贴合真实环境的评估平台。 具体而言,RoboTwin 能够从单张二维图像创建多样化的物体数字孪生,生成逼真且可交互的场景。同时,RoboTwin 引入了一个具备空间关系感知能力的代码生成框架,该框架结合物体标注信息与大型语言模型,可拆解任务、识别空间约束,并生成精准的机器人运动控制代码。 我们的框架提供了一个全面的基准测试平台,涵盖仿真数据与真实数据,促进标准化评估,并增强仿真训练与真实部署之间的对齐程度。 我们在开源平台 COBOT Magic Robot 上验证了该方法的有效性。结果表明,基于 RoboTwin 生成数据预训练并结合少量真实样本微调后的策略,相较于仅使用真实数据训练的模型,在单臂任务中成功率提升超过 70%,在双臂任务中提升超过 40%,展现出显著的性能增强潜力,为双臂机器人操作系统的进步提供了有力支撑。