成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
预期回报
关注
7
预期收益(或预期收益)指的是随机变量的值,如果找到随机变量的过程可以重复无数次,则可以期望。 形式上,它给出了变量分布中心的度量。 它是使用以下公式计算的:其中:是方案的收益; 是场景中回报的概率; 并计算方案的数量。 尽管这是人们期望的回报,但这仅指长期平均水平。 在短期内,该事件的每个实例可能会非常不同。 如上述公式所示,只需简单地计算每个可能的回报结果的概率,然后将其乘以回报结果本身。 例如,如果某人知道某项投资有50%的机会获得10的回报,25%的机会获得20的回报和25%的机会获得–10的回报,则预期回报将等于7.5: 人们期望的回报是多少,不能保证它将是实际的回报。在机器学习领域,往往指当模型采取一定的行为,希望得到的回报(奖励),在强化学习中经常出现。
综合
百科
VIP
热门
动态
论文
精华
A Tale of Sampling and Estimation in Discounted Reinforcement Learning
Arxiv
0+阅读 · 2023年4月14日
Best Arm Identification with Fairness Constraints on Subpopulations
Arxiv
0+阅读 · 2023年4月8日
Robust Decision-Focused Learning for Reward Transfer
Arxiv
0+阅读 · 2023年4月6日
Smart Choices and the Selection Monad
Arxiv
0+阅读 · 2023年3月29日
参考链接
父主题
强化学习
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top