成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
奖励函数
关注
1
综合
百科
VIP
热门
动态
论文
精华
Robot See, Robot Do: Imitation Reward for Noisy Financial Environments
Arxiv
0+阅读 · 11月13日
Learning Autonomous Docking Operation of Fully Actuated Autonomous Surface Vessel from Expert data
Arxiv
0+阅读 · 11月12日
Health Text Simplification: An Annotated Corpus for Digestive Cancer Education and Novel Strategies for Reinforcement Learning
Arxiv
0+阅读 · 11月10日
CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation
Arxiv
0+阅读 · 11月11日
Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics
Arxiv
0+阅读 · 11月7日
Aligning Text-to-Image Diffusion Models with Reward Backpropagation
Arxiv
0+阅读 · 11月7日
Axioms for AI Alignment from Human Feedback
Arxiv
0+阅读 · 11月7日
Improving Trust Estimation in Human-Robot Collaboration Using Beta Reputation at Fine-grained Timescales
Arxiv
0+阅读 · 11月4日
Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping
Arxiv
0+阅读 · 11月2日
Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
Arxiv
0+阅读 · 11月1日
Towards shutdownable agents via stochastic choice
Arxiv
0+阅读 · 11月1日
Learning the Expected Core of Strictly Convex Stochastic Cooperative Games
Arxiv
0+阅读 · 10月30日
REvolve: Reward Evolution with Large Language Models using Human Feedback
Arxiv
0+阅读 · 10月29日
ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization
Arxiv
0+阅读 · 10月17日
ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization
Arxiv
0+阅读 · 10月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top