Self-Play论文 - 专知

会员服务 ·

Self-Play

Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning

Arxiv

0+阅读 · 11月7日

Outbidding and Outbluffing Elite Humans: Mastering Liar's Poker via Self-Play and Reinforcement Learning

Arxiv

0+阅读 · 11月5日

Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search

Arxiv

0+阅读 · 11月10日

Self-Improving AI Agents through Self-Play

Arxiv

0+阅读 · 12月2日

Learning Steerable Clarification Policies with Collaborative Self-play

Arxiv

0+阅读 · 12月3日

Provable Memory Efficient Self-Play Algorithm for Model-free Reinforcement Learning

Arxiv

0+阅读 · 11月29日

Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning

Arxiv

0+阅读 · 11月29日

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Arxiv

0+阅读 · 12月13日

Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation

Arxiv

0+阅读 · 11月24日

Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation

Arxiv

0+阅读 · 11月14日

SPICE: Self-Play In Corpus Environments Improves Reasoning

SPICE: Self-Play In Corpus Environments Improves Reasoning

Arxiv

0+阅读 · 10月28日

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Arxiv

0+阅读 · 10月28日

SPIRAL: Self-Play Incremental Racing Algorithm for Learning in Multi-Drone Competitions

Arxiv

0+阅读 · 10月26日

Curriculum-Based Iterative Self-Play for Scalable Multi-Drone Racing

Arxiv

0+阅读 · 10月26日

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Arxiv

0+阅读 · 10月27日

参考链接

微信扫码咨询专知VIP会员