成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Self-Play
关注
0
综合
百科
VIP
热门
动态
论文
精华
Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models
Arxiv
0+阅读 · 10月6日
AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
Arxiv
0+阅读 · 9月29日
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
Arxiv
0+阅读 · 7月1日
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
Arxiv
0+阅读 · 6月30日
Artificial Generals Intelligence: Mastering Generals.io with Reinforcement Learning
Arxiv
0+阅读 · 7月9日
Don't lie to your friends: Learning what you know from collaborative self-play
Arxiv
0+阅读 · 3月31日
LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning
Arxiv
1+阅读 · 3月27日
A Survey on Self-play Methods in Reinforcement Learning
Arxiv
0+阅读 · 3月27日
OptionZero: Planning with Learned Options
Arxiv
0+阅读 · 3月21日
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
Arxiv
0+阅读 · 3月11日
Model Behavior Specification by Leveraging LLM Self-Playing and Self-Improving
Arxiv
0+阅读 · 3月5日
STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving
Arxiv
0+阅读 · 3月21日
A Survey on Self-play Methods in Reinforcement Learning
Arxiv
0+阅读 · 3月5日
Don't lie to your friends: Learning what you know from collaborative self-play
Arxiv
0+阅读 · 3月18日
Building reliable sim driving agents by scaling self-play
Arxiv
0+阅读 · 2月27日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top