谷歌足球环境(Google Research Football )的介绍可以参看之前的公众号文章:
源码链接:https://github.com/google-research/football
在 Football Academy 中提供了11个不同类型和难度的scenarios,这里选择scenario 2 作为初步的实验环境:
谷歌发布的这足球环境有两个特点:一是稀疏奖励(只有进球了才有得分),类似游戏有围棋等;二是随机性大(射门进球是离散概率的),类似游戏有扑克等。环境的动作空间为21维,解决scenario 2的重点是找到其中有用的动作,比如带球和射门。
随着学习的进行,Agent学到的策略也在迭代:
1. 直接射门。刚开始就学到的简单策略,由于远距离射门进球随机性大,得分并不高。
2. 先带球再射门。Agent发现离球门越近射门进球概率越高,学会先带球后再射门,但是需要补射。
3. 带球到禁区附近射门。一路带球到靠近球门,此时正对球门,距离合适,射门基本都能命中,而且不需要补射。
官方的Baseline里的得分只有0.85,我们的实验结果为1.0(100%进球)。
欢迎加入或支持我们 :)