状态值函数论文 - 专知

会员服务 ·

状态值函数

状态值函数

Goal-oriented Transmission Scheduling: Structure-guided DRL with a Unified Dual On-policy and Off-policy Approach

Arxiv

0+阅读 · 1月21日

OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences

Arxiv

0+阅读 · 2024年2月7日

Feasible Policy Iteration

Arxiv

0+阅读 · 2023年4月18日

Function Approximation for Solving Stackelberg Equilibrium in Large Perfect Information Games

Arxiv

0+阅读 · 2023年4月2日

Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation

Arxiv

0+阅读 · 2023年2月8日

Function Approximation for Solving Stackelberg Equilibrium in Large Perfect Information Games

Arxiv

0+阅读 · 2022年12月29日

Maximum Entropy Dueling Network Architecture in Atari Domain

Arxiv

0+阅读 · 2022年4月27日

Learning and Transferring Value Function for Robot Exploration in Subterranean Environments

Arxiv

0+阅读 · 2022年4月7日

Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

Arxiv

0+阅读 · 2021年8月5日

Maximum Entropy Dueling Network Architecture

Arxiv

0+阅读 · 2021年7月30日

Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

Arxiv

0+阅读 · 2021年7月26日

On Query-efficient Planning in MDPs under Linear Realizability of the Optimal State-value Function

Arxiv

0+阅读 · 2021年7月9日

On Query-efficient Planning in MDPs under Linear Realizability of the Optimal State-value Function

Arxiv

0+阅读 · 2021年2月4日

On Query-efficient Planning in MDPs under Linear Realizability of the Optimal State-value Function

Arxiv

0+阅读 · 2021年2月3日

Planning with Expectation Models

Arxiv

0+阅读 · 2020年7月29日

参考链接

微信扫码咨询专知VIP会员