多策略论文 - 专知

会员服务 ·

多策略

DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition

Arxiv

0+阅读 · 12月24日

MOTIF: Multi-strategy Optimization via Turn-based Interactive Framework

Arxiv

0+阅读 · 12月8日

Kinematics-Aware Multi-Policy Reinforcement Learning for Force-Capable Humanoid Loco-Manipulation

Arxiv

0+阅读 · 11月26日

参考链接

微信扫码咨询专知VIP会员