奖励函数论文 - 专知

会员服务 ·

奖励函数

Physics-Based Motion Imitation with Adversarial Differential Discriminators

Arxiv

0+阅读 · 10月4日

Reward Model Overoptimisation in Iterated RLHF

Arxiv

0+阅读 · 9月29日

REvolve: Reward Evolution with Large Language Models using Human Feedback

Arxiv

0+阅读 · 5月23日

REvolve: Reward Evolution with Large Language Models using Human Feedback

Arxiv

0+阅读 · 4月6日

Residual Reward Models for Preference-based Reinforcement Learning

Arxiv

0+阅读 · 7月1日

ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators

Arxiv

0+阅读 · 5月8日

Logarithmic Regret for Online KL-Regularized Reinforcement Learning

Arxiv

0+阅读 · 5月30日

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions

Arxiv

0+阅读 · 6月15日

Towards shutdownable agents via stochastic choice

Arxiv

0+阅读 · 4月1日

FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation

Arxiv

0+阅读 · 3月28日

Towards shutdownable agents via stochastic choice

Towards shutdownable agents via stochastic choice

Arxiv

0+阅读 · 3月28日

Empathy Level Alignment via Reinforcement Learning for Empathetic Response Generation

Arxiv

0+阅读 · 3月2日

Logarithmic Regret for Online KL-Regularized Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Logarithmic Regret for Online KL-Regularized Reinforcement Learning

Arxiv

0+阅读 · 3月13日

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

Arxiv

0+阅读 · 3月6日

参考链接

微信扫码咨询专知VIP会员