强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?

强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?reward分别取1或2或3时,奖励越高,agent选择这一串action的…
关注者
9
被浏览
7,801
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

肯定有影响的。

本质上影响到Q值,rmax=1, eta=0.99,Qmax=100

如果用神经网络估算Q值,r过大,则Q的估值会过大,会影响数值稳定,网络训练会崩盘;r过小,采样策略会对r不敏感,更接近于随机。