Simulation parameter settings such as contact models and object geometry approximations are critical to training robust robotic policies capable of transferring from simulation to real-world deployment. Previous approaches typically handcraft distributions over such parameters (domain randomization), or identify parameters that best match the dynamics of the real environment (system identification). However, there is often an irreducible gap between simulation and reality: attempting to match the dynamics between simulation and reality across all states and tasks may be infeasible and may not lead to policies that perform well in reality for a specific task. Addressing this issue, we propose AdaptSim, a new task-driven adaptation framework for sim-to-real transfer that aims to optimize task performance in target (real) environments -- instead of matching dynamics between simulation and reality. First, we meta-learn an adaptation policy in simulation using reinforcement learning for adjusting the simulation parameter distribution based on the current policy's performance in a target environment. We then perform iterative real-world adaptation by inferring new simulation parameter distributions for policy training, using a small amount of real data. We perform experiments in three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when adapting to different environments, compared to methods based on Sys-ID and directly training the task policy in target environments.
翻译:接触模型和物体几何近似等模拟参数设置对于培训能够从模拟向现实部署转移的稳健机器人政策至关重要。 以往的做法通常是手工艺品在此类参数上的分配( 域随机化), 或确定最符合真实环境动态的参数( 系统识别)。 然而, 模拟与现实之间往往存在无法缩小的差距: 试图将模拟与所有国家和任务的现实之间的动态相匹配, 可能不可行, 并且可能不会导致在具体任务中产生效果良好的政策。 解决这个问题, 我们提议 SandSim, 一个新的任务驱动的适应框架, 用于模拟到现实部署, 目的是优化目标( 实) 环境中的任务性能( 域), 而不是匹配模拟与现实环境的动态( 系统识别 ) 。 然而, 我们利用强化学习, 调整模拟参数分布时, 根据当前政策在目标环境中的性能表现, 我们用新的模拟参数分布在政策培训中, 使用少量的实际数据。 我们在三个机器人任务中进行实验:(1) 将双向性培训环境进行滚动, 将双向的双向性测试,, 将 我们的双向的硬质模型进行我们的数据模拟,, 将一个动态的硬质化的硬质化, 将数据 的 将 将 的 进行一个动态的硬性 的 的 的 将 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 向 向 向 向 向 向 向 向 向 向 向 向 向 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的