强化学习中的reward值分别设置为1、2、3时，会有什么区别？什么影响？

Question

强化学习中的reward值分别设置为1、2、3时，会有什么区别？什么影响？reward分别取1或2或3时，奖励越高，agent选择这一串action的…

关注者

9

被浏览

7,801

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

肯定有影响的。

本质上影响到Q值，rmax=1, eta=0.99，则Qmax=100

如果用神经网络估算Q值，r过大，则Q的估值会过大，会影响数值稳定，网络训练会崩盘；r过小，采样策略会对r不敏感，更接近于随机。