长期回报论文 - 专知

会员服务 ·

长期回报

Explore-then-Commit for Nonstationary Linear Bandits with Latent Dynamics

Arxiv

0+阅读 · 10月17日

SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems

Arxiv

0+阅读 · 2024年8月20日

An LLM-based Recommender System Environment

Arxiv

0+阅读 · 2024年6月1日

Enhancing Efficiency of Safe Reinforcement Learning via Sample Manipulation

Arxiv

0+阅读 · 2024年5月31日

Policy Learning for Balancing Short-Term and Long-Term Rewards

Arxiv

0+阅读 · 2024年5月6日

Long-term Off-Policy Evaluation and Learning

Arxiv

0+阅读 · 2024年4月24日

Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback

Arxiv

0+阅读 · 2024年1月17日

UNEX-RL: Reinforcing Long-Term Rewards in Multi-Stage Recommender Systems with UNidirectional EXecution

Arxiv

0+阅读 · 2024年1月12日

Delay-sensitive Task Offloading in Vehicular Fog Computing-Assisted Platoons

Arxiv

0+阅读 · 2023年9月19日

ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation

Arxiv

0+阅读 · 2023年8月4日

Integrating Offline Reinforcement Learning with Transformers for Sequential Recommendation

Arxiv

0+阅读 · 2023年7月26日

Interactive Video Corpus Moment Retrieval using Reinforcement Learning

Arxiv

0+阅读 · 2023年2月19日

Generative Slate Recommendation with Reinforcement Learning

Arxiv

0+阅读 · 2023年1月24日

Generative Slate Recommendation with Reinforcement Learning

Arxiv

0+阅读 · 2023年1月20日

Reinforcement Learning with Non-Exponential Discounting

Arxiv

0+阅读 · 2022年12月7日

参考链接

微信扫码咨询专知VIP会员