Width-based planning methods have been shown to yield state-of-the-art performance in the Atari 2600 domain using pixel input. One successful approach, RolloutIW, represents states with the B-PROST boolean feature set. An augmented version of RolloutIW, $\pi$-IW, shows that learned features can be competitive with handcrafted ones for width-based search. In this paper, we leverage variational autoencoders (VAEs) to learn features directly from pixels in a principled manner, and without supervision. The inference model of the trained VAEs extracts boolean features from pixels, and RolloutIW plans with these features. The resulting combination outperforms the original RolloutIW and human professional play on Atari 2600 and drastically reduces the size of the feature set.
翻译:以 Width 为基础的规划方法显示,使用像素输入在Atari 2600 域中产生最先进的性能。 一种成功的方法,即推出IW, 以B- PROST布林设置的功能代表各州。 扩大版的推出IW, $\ pi$- IW, 表明学习的特征可以与手工制作的功能竞争, 用于宽度搜索。 在本文中, 我们利用变式自动编码器(VAEs) 直接以有原则的方式, 不受监督地从像素中直接学习特征。 受过训练的 VAEs 的推论模型提取像素的布林特性, 以及带有这些特征的推出IW 计划。 由此产生的组合将原始的推出IW 和 Atari00 上的人专业游戏化, 并大幅缩小了设置功能的大小 。