In this paper, we study the non-asymptotic performance of optimal policy on robust value function with true transition dynamics. The optimal robust policy is solved from a generative model or offline dataset without access to true transition dynamics. In particular, we consider three different uncertainty sets including the $L_1$, $\chi^2$ and KL balls in both $(s,a)$-rectangular and $s$-rectangular assumptions. Our results show that when we assume $(s,a)$-rectangular on uncertainty sets, the sample complexity is about $\widetilde{O}\left(\frac{|\mathcal{S}|^2|\mathcal{A}|}{\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the generative model setting and $\widetilde{O}\left(\frac{|\mathcal{S}|}{\nu_{\min}\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the offline dataset setting. While prior works on non-asymptotic performances are restricted with the KL ball and $(s,a)$-rectangular assumption, we also extend our results to a more general $s$-rectangular assumption, which leads to a larger sample complexity than the $(s,a)$-rectangular assumption.
翻译:在本文中, 我们研究关于具有真正过渡动态的稳健价值功能的最佳政策的非 保护性表现。 最佳的稳健政策通过基因模型或离线数据集解决, 无法获取真正的过渡动态。 特别是, 我们考虑三种不同的不确定性组, 包括: $_ 1美元、 $\chi% 2美元和KL球, 美元( 美元, a) 美元- 立方美元 和 美元- 立方美元 假设。 我们的结果表明, 当我们假设( 美元, a) 美元- 立方美元( 美元- 立方正方程) 的不确定性组时, 抽样复杂性大约是 $( 全方程) 美元( leftleft) 或 立方程( 美元) 。 在离线数据组设定中, 试样复杂度( S\\\\ mathcalcal=$( max美元) 上, 之前的性平局( lax- max) 假设( lax) later- pastial) a gastical max pas pas pasion ( K) max pas pas pas pas pas pas pas pas pas pas pas pas pas pas pas pas pas.