强化学习中的reward值分别设置为1、2、3时，会有什么区别？什么影响？

Question

强化学习中的reward值分别设置为1、2、3时，会有什么区别？什么影响？reward分别取1或2或3时，奖励越高，agent选择这一串action的…

关注者

9

被浏览

7,843

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

首先强化学习里的reward表示行为的即时收益，而强化学习追求的是长期收益最大化。

一般学习初始阶段，agent的确倾向于选择当前状态下reward大的动作，有点贪心算法的意思。

reward是强化学习里的超参，就是需要凭经验设定的值，而且对训练是否收敛有很大影响，需要慎重选择。