成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Self-Play
关注
0
综合
百科
VIP
热门
动态
论文
精华
SMAC-Hard: Enabling Mixed Opponent Strategy Script and Self-play on SMAC
Arxiv
0+阅读 · 12月23日
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment
Arxiv
0+阅读 · 12月20日
Evolving Alignment via Asymmetric Self-Play
Arxiv
0+阅读 · 12月12日
SPRec: Leveraging Self-Play to Debias Preference Alignment for Large Language Model-based Recommendations
Arxiv
0+阅读 · 12月12日
Efficacy of Language Model Self-Play in Non-Zero-Sum Games
Arxiv
0+阅读 · 12月9日
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX
Arxiv
0+阅读 · 11月2日
SPO: Sequential Monte Carlo Policy Optimisation
Arxiv
0+阅读 · 10月31日
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment
Arxiv
0+阅读 · 10月22日
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment
Arxiv
0+阅读 · 10月28日
Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy
Arxiv
0+阅读 · 10月9日
MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders
Arxiv
0+阅读 · 10月9日
Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation
Arxiv
0+阅读 · 10月7日
Self-Play Preference Optimization for Language Model Alignment
Arxiv
0+阅读 · 10月4日
Learning to Drive via Asymmetric Self-Play
Arxiv
0+阅读 · 9月26日
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy
Arxiv
0+阅读 · 9月25日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top