成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Self-Play
关注
0
综合
百科
VIP
热门
动态
论文
精华
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX
Arxiv
0+阅读 · 11月2日
SPO: Sequential Monte Carlo Policy Optimisation
Arxiv
0+阅读 · 10月31日
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment
Arxiv
0+阅读 · 10月22日
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment
Arxiv
0+阅读 · 10月28日
Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy
Arxiv
0+阅读 · 10月9日
MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders
Arxiv
0+阅读 · 10月9日
Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation
Arxiv
0+阅读 · 10月7日
Self-Play Preference Optimization for Language Model Alignment
Arxiv
0+阅读 · 10月4日
Learning to Drive via Asymmetric Self-Play
Arxiv
0+阅读 · 9月26日
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy
Arxiv
0+阅读 · 9月25日
Runtime analysis of a coevolutionary algorithm on impartial combinatorial games
Arxiv
0+阅读 · 9月6日
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
Arxiv
0+阅读 · 8月20日
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
Arxiv
0+阅读 · 8月12日
A Survey on Self-play Methods in Reinforcement Learning
Arxiv
1+阅读 · 8月2日
Self-Play Ensemble Q-learning enabled Resource Allocation for Network Slicing
Arxiv
0+阅读 · 8月19日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top