off-policy论文 - 专知

会员服务 ·

off-policy

MetaGFN: Exploring Distant Modes with Adapted Metadynamics for Continuous GFlowNets

Arxiv

0+阅读 · 2024年8月28日

Revisiting Experience Replayable Conditions

Arxiv

0+阅读 · 2024年7月9日

A Pragmatic Look at Deep Imitation Learning

Arxiv

0+阅读 · 2023年9月20日

Bag of Policies for Distributional Deep Exploration

Arxiv

0+阅读 · 2023年8月3日

Curiosity-Driven Reinforcement Learning based Low-Level Flight Control

Arxiv

0+阅读 · 2023年7月28日

Thompson sampling for improved exploration in GFlowNets

Arxiv

0+阅读 · 2023年6月30日

SLiC-HF: Sequence Likelihood Calibration with Human Feedback

Arxiv

0+阅读 · 2023年5月17日

The Sufficiency of Off-policyness and Soft Clipping: PPO is insufficient according to an Off-policy Measure

Arxiv

0+阅读 · 2022年8月9日

The Sufficiency of Off-policyness and Soft Clipping: PPO is insufficient according to an Off-policy Measure

Arxiv

0+阅读 · 2022年8月8日

Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm

Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm

Arxiv

0+阅读 · 2022年5月2日

MA-Dreamer: Coordination and communication through shared imagination

Arxiv

0+阅读 · 2022年4月10日

Selective Credit Assignment

Arxiv

0+阅读 · 2022年2月20日

Chaining Value Functions for Off-Policy Learning

Arxiv

0+阅读 · 2022年2月2日

Chaining Value Functions for Off-Policy Learning

Arxiv

0+阅读 · 2022年1月17日

Flexible Option Learning

Arxiv

0+阅读 · 2021年12月6日

参考链接

微信扫码咨询专知VIP会员