预期收益(或预期收益)指的是随机变量的值,如果找到随机变量的过程可以重复无数次,则可以期望。 形式上,它给出了变量分布中心的度量。 它是使用以下公式计算的:其中:是方案的收益; 是场景中回报的概率; 并计算方案的数量。 尽管这是人们期望的回报,但这仅指长期平均水平。 在短期内,该事件的每个实例可能会非常不同。 如上述公式所示,只需简单地计算每个可能的回报结果的概率,然后将其乘以回报结果本身。 例如,如果某人知道某项投资有50%的机会获得10的回报,25%的机会获得20的回报和25%的机会获得–10的回报,则预期回报将等于7.5: 人们期望的回报是多少,不能保证它将是实际的回报。在机器学习领域,往往指当模型采取一定的行为,希望得到的回报(奖励),在强化学习中经常出现。
参考链接
父主题
微信扫码咨询专知VIP会员