我们提出了一个由表示驱动的强化学习框架。通过将策略表示为它们预期值的估计,我们利用来自情境赌博机的技术来引导探索和利用。特别地,将策略网络嵌入到线性特征空间中,使我们能够将探索-利用问题重塑为表示-利用问题,其中良好的策略表示能够实现最优探索。我们通过将这个框架应用于进化和策略梯度方法来证明其有效性,这导致了与传统方法相比的显著性能提升。我们的框架为强化学习提供了新的视角,强调了策略表示在确定最优探索-利用策略中的重要性。