强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?

强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?reward分别取1或2或3时,奖励越高,agent选择这一串action的…
关注者
9
被浏览
7,843
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

首先强化学习里的reward表示行为的即时收益,而强化学习追求的是长期收益最大化。

一般学习初始阶段,agent的确倾向于选择当前状态下reward大的动作,有点贪心算法的意思。

reward是强化学习里的超参,就是需要凭经验设定的值,而且对训练是否收敛有很大影响,需要慎重选择。