强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?
关注者
9被浏览
7,843登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
首先强化学习里的reward表示行为的即时收益,而强化学习追求的是长期收益最大化。
一般学习初始阶段,agent的确倾向于选择当前状态下reward大的动作,有点贪心算法的意思。
reward是强化学习里的超参,就是需要凭经验设定的值,而且对训练是否收敛有很大影响,需要慎重选择。
首先强化学习里的reward表示行为的即时收益,而强化学习追求的是长期收益最大化。
一般学习初始阶段,agent的确倾向于选择当前状态下reward大的动作,有点贪心算法的意思。
reward是强化学习里的超参,就是需要凭经验设定的值,而且对训练是否收敛有很大影响,需要慎重选择。