We introduce a mapping between Maximum Entropy Reinforcement Learning (MaxEnt RL) and Markovian processes conditioned on rare events. In the long time limit, this mapping allows us to derive analytical expressions for the optimal policy, dynamics and initial state distributions for the general case of stochastic dynamics in MaxEnt RL. We find that soft-$\mathcal{Q}$ functions in MaxEnt RL can be obtained from the Perron-Frobenius eigenvalue and the corresponding left eigenvector of a regular, non-negative matrix derived from the underlying Markov Decision Process (MDP). The results derived lead to novel algorithms for model-based and model-free MaxEnt RL, which we validate by numerical simulations. The mapping established in this work opens further avenues for the application of novel analytical and computational approaches to problems in MaxEnt RL. We make our code available at: https://github.com/argearriojas/maxent-rl-mdp-scripts
翻译:我们引入了以稀有事件为条件的最大 Entropy加强学习(MAxEnt RL) 和 Markovian 进程之间的映射。 在很长的时间限制里, 此映射允许我们为 MaxEnt RL 中一般随机动态案例的最佳政策、动态和初始状态分布进行分析表达。 我们发现, MaxEnt RL 中的软- $\ mathcal $ 函数可以从 Perron- Frobenius egenvalue 和来自 Markov 基本决策过程( MDP ) 的常规非负矩阵的左向导中获取。 其结果引向基于模型和无模型的 MaxEnt RL 的新型算法, 我们通过数字模拟加以验证。 这项工作中建立的映射为应用新式分析和计算方法解决 MaxEnt RL 中的问题开辟了更多途径。 我们的代码可以在 https://github.com/ agearrijas/maxent-rl- mdp- pat- prits