Soft Actor-Critic (SAC) is considered the state-of-the-art algorithm in continuous action space settings. It uses the maximum entropy framework for efficiency and stability, and applies a heuristic temperature Lagrange term to tune the temperature $\alpha$, which determines how "soft" the policy should be. It is counter-intuitive that empirical evidence shows SAC does not perform well in discrete domains. In this paper we investigate the possible explanations for this phenomenon and propose Target Entropy Scheduled SAC (TES-SAC), an annealing method for the target entropy parameter applied on SAC. Target entropy is a constant in the temperature Lagrange term and represents the target policy entropy in discrete SAC. We compare our method on Atari 2600 games with different constant target entropy SAC, and analyze on how our scheduling affects SAC.
翻译: Soft Actor- Critic (SAC) 被认为是连续动作空间设置中最先进的算法。 它使用最大恒星框架来提高效率和稳定性, 并使用超温温度拉格朗术语来调节温度 $\ alpha$, 这决定了该政策应该如何“ 软 ” 。 反直觉的是, 经验证据表明 SAC 在离散域中表现不佳。 本文中我们调查了这一现象的可能解释, 并提出了目标 Entropy 附表 SAC (TES- SAC), 这是在 SAC 上应用的目标 酶参数的一种反射法 。 目标 恒星在温度拉格朗术语中是恒定的, 并且代表离散 SAC 中的目标政策 。 我们比较了 Atari 2600 游戏的方法与不同的恒定目标 entropy SAC, 并分析我们的时间表是如何影响 SAC 的 。