在本文中,我们提出了一种层次自适应上下文强盗方法(HATCH)来进行有预算约束的上下文强盗的策略学习。HATCH采用了一种自适应的方法,根据剩余资源/时间和不同用户上下文之间的报酬分配来分配勘探资源。此外,我们利用丰富的上下文特征信息来寻找最佳的个性化推荐。