强化学习中的reward值分别设置为1、2、3时,会有什么区别?什么影响?
关注者
9被浏览
7,801登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
肯定有影响的。
本质上影响到Q值,rmax=1, eta=0.99,则Qmax=100
如果用神经网络估算Q值,r过大,则Q的估值会过大,会影响数值稳定,网络训练会崩盘;r过小,采样策略会对r不敏感,更接近于随机。
肯定有影响的。
本质上影响到Q值,rmax=1, eta=0.99,则Qmax=100
如果用神经网络估算Q值,r过大,则Q的估值会过大,会影响数值稳定,网络训练会崩盘;r过小,采样策略会对r不敏感,更接近于随机。