Mixture models are an expressive hypothesis class that can approximate a rich set of policies. However, using mixture policies in the Maximum Entropy (MaxEnt) framework is not straightforward. The entropy of a mixture model is not equal to the sum of its components, nor does it have a closed-form expression in most cases. Using such policies in MaxEnt algorithms, therefore, requires constructing a tractable approximation of the mixture entropy. In this paper, we derive a simple, low-variance mixture-entropy estimator. We show that it is closely related to the sum of marginal entropies. Equipped with our entropy estimator, we derive an algorithmic variant of Soft Actor-Critic (SAC) to the mixture policy case and evaluate it on a series of continuous control tasks.
翻译:混合模型是一个直观的假设类别,可以近似于一套丰富的政策。 但是,在最大肠杆菌(MaxEnt)框架中使用混合政策并非直截了当。 混合物模型的酶值并不等于其成分的总和, 在大多数情况下, 它也没有封闭式的表达方式。 因此, 在 MaxEnt 算法中使用这种政策, 需要构建混合物酶的可移植近似值。 在本文中, 我们得出一个简单、 低差异的混合物- 血压估计器。 我们显示它与边际植物的总和密切相关。 我们用我们的酶测算器, 我们从混合物保值中提取了一个 SoftAcor- Critic (SAC) 的算法变量, 并在一系列连续的控制任务中进行评估 。