【博士论文】强化学习智能体的奖励函数设计

奖励函数在强化学习（Reinforcement Learning, RL）中具有核心地位，引导智能体实现最优决策。由于强化学习任务通常具备高度复杂性，因此需要精心设计的奖励函数，既能有效驱动学习过程，又能避免引发意料之外的行为后果。有效的奖励设计旨在提供有助于智能体快速收敛至最优行为策略的学习信号。设计奖励的挑战在于：如何使其与任务目标保持一致、激励期望行为并抑制不良行为，这一过程本身就极具难度。本论文深入探讨了奖励信号在强化学习中的关键作用，重点分析其对智能体行为及学习动态的影响，同时系统讨论了如延迟、模糊或复杂奖励信号所带来的挑战。在本研究中，我们从多个维度研究了奖励塑形（Reward Shaping）的问题。首先，我们从“教师/专家”视角出发（即“教师驱动”方式），研究如何设计信息丰富且可解释的奖励信号。在此场景中，专家掌握最优策略及其对应的价值函数，并据此设计奖励信号，以加速智能体向最优策略的收敛过程。其次，我们在教师驱动方法基础上提出了一种新颖的自适应可解释奖励设计方法。在该方法中，专家会根据学习者当前的策略动态调整奖励函数，从而确保学习方向的对齐与最优性进展。最后，我们提出一种元学习（Meta-Learning）方法，使智能体能够在没有专家参与的情况下在线自我设计奖励信号（即“智能体驱动”）。该方法综合考虑了智能体的学习过程与探索行为，从而构建了一个自我改进的反馈机制，实现奖励信号的自主生成与优化。

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】小型和大型模型的不确定性估计

专知会员服务

16+阅读 · 7月11日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

16+阅读 · 7月6日

【博士论文】通过学习可组合能量场景来学习可泛化系统

专知会员服务

14+阅读 · 5月10日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

31+阅读 · 4月21日