强化学习论文 - 专知

会员服务 ·

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations

Arxiv

0+阅读 · 10月31日

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

Arxiv

0+阅读 · 10月31日

Reinforcement Learning for Long-Horizon Unordered Tasks: From Boolean to Coupled Reward Machines

Reinforcement Learning for Long-Horizon Unordered Tasks: From Boolean to Coupled Reward Machines

Arxiv

0+阅读 · 10月31日

Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning

Arxiv

0+阅读 · 10月31日

Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration

Arxiv

0+阅读 · 10月31日

Mechanical Intelligence-Aware Curriculum Reinforcement Learning for Humanoids with Parallel Actuation

Arxiv

0+阅读 · 10月30日

Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations

Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations

Arxiv

0+阅读 · 10月31日

AURA: A Reinforcement Learning Framework for AI-Driven Adaptive Conversational Surveys

AURA: A Reinforcement Learning Framework for AI-Driven Adaptive Conversational Surveys

Arxiv

0+阅读 · 10月31日

Challenges in Credit Assignment for Multi-Agent Reinforcement Learning in Open Agent Systems

Challenges in Credit Assignment for Multi-Agent Reinforcement Learning in Open Agent Systems

Arxiv

0+阅读 · 10月31日

A Digital Twin-based Multi-Agent Reinforcement Learning Framework for Vehicle-to-Grid Coordination

A Digital Twin-based Multi-Agent Reinforcement Learning Framework for Vehicle-to-Grid Coordination

Arxiv

0+阅读 · 10月31日

Non-myopic Matching and Rebalancing in Large-Scale On-Demand Ride-Pooling Systems Using Simulation-Informed Reinforcement Learning

Arxiv

0+阅读 · 10月28日

Morphology-Aware Graph Reinforcement Learning for Tensegrity Robot Locomotion

Arxiv

0+阅读 · 10月30日

Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search

Arxiv

0+阅读 · 10月30日

A Game-Theoretic Spatio-Temporal Reinforcement Learning Framework for Collaborative Public Resource Allocation

Arxiv

0+阅读 · 10月30日

Accelerating Real-World Overtaking in F1TENTH Racing Employing Reinforcement Learning Methods

Arxiv

0+阅读 · 10月30日

参考链接

父主题

子主题

马尔可夫决策过程

UNREAL(DRL算法)

深度强化学习

人工智能游戏

图强化学习

微信扫码咨询专知VIP会员