价值函数论文 - 专知

会员服务 ·

价值函数

OpenSQP: A Reconfigurable Open-Source SQP Algorithm in Python for Nonlinear Optimization

Arxiv

0+阅读 · 12月5日

Safety with Agency: Human-Centered Safety Filter with Application to AI-Assisted Motorsports

Arxiv

0+阅读 · 12月17日

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

Arxiv

0+阅读 · 12月3日

Temporal Cooperative Games

Arxiv

0+阅读 · 12月1日

Temporal Cooperative Games

Arxiv

0+阅读 · 11月28日

AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models

Arxiv

0+阅读 · 11月30日

A Recursive Theory of Variational State Estimation: The Dynamic Programming Approach

Arxiv

0+阅读 · 12月16日

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol

Arxiv

0+阅读 · 10月24日

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Arxiv

0+阅读 · 10月23日

Reinforcement Learning with Imperfect Transition Predictions: A Bellman-Jensen Approach

Arxiv

0+阅读 · 10月21日

MADR: MPC-guided Adversarial DeepReach

MADR: MPC-guided Adversarial DeepReach

Arxiv

0+阅读 · 10月21日

Scalable Policy-Based RL Algorithms for POMDPs

Arxiv

0+阅读 · 10月13日

Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning

Arxiv

0+阅读 · 10月9日

BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving

Arxiv

0+阅读 · 10月9日

Evaluating and Learning Optimal Dynamic Treatment Regimes under Truncation by Death

Arxiv

0+阅读 · 10月8日

参考链接

微信扫码咨询专知VIP会员