奖励函数在强化学习(Reinforcement Learning, RL)中具有核心地位,引导智能体实现最优决策。由于强化学习任务通常具备高度复杂性,因此需要精心设计的奖励函数,既能有效驱动学习过程,又能避免引发意料之外的行为后果。有效的奖励设计旨在提供有助于智能体快速收敛至最优行为策略的学习信号。设计奖励的挑战在于:如何使其与任务目标保持一致、激励期望行为并抑制不良行为,这一过程本身就极具难度。 本论文深入探讨了奖励信号在强化学习中的关键作用,重点分析其对智能体行为及学习动态的影响,同时系统讨论了如延迟、模糊或复杂奖励信号所带来的挑战。在本研究中,我们从多个维度研究了奖励塑形(Reward Shaping)的问题。 首先,我们从“教师/专家”视角出发(即“教师驱动”方式),研究如何设计信息丰富且可解释的奖励信号。在此场景中,专家掌握最优策略及其对应的价值函数,并据此设计奖励信号,以加速智能体向最优策略的收敛过程。 其次,我们在教师驱动方法基础上提出了一种新颖的自适应可解释奖励设计方法。在该方法中,专家会根据学习者当前的策略动态调整奖励函数,从而确保学习方向的对齐与最优性进展。 最后,我们提出一种元学习(Meta-Learning)方法,使智能体能够在没有专家参与的情况下在线自我设计奖励信号(即“智能体驱动”)。该方法综合考虑了智能体的学习过程与探索行为,从而构建了一个自我改进的反馈机制,实现奖励信号的自主生成与优化。

成为VIP会员查看完整内容
31

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
33+阅读 · 2024年10月30日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
38+阅读 · 2024年10月21日
【博士论文】弱反馈的序列决策问题
专知会员服务
24+阅读 · 2023年1月2日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员