在本文中,我们提出了一种层次自适应上下文强盗方法(HATCH)来进行有预算约束的上下文强盗的策略学习。HATCH采用了一种自适应的方法,根据剩余资源/时间和不同用户上下文之间的报酬分配来分配勘探资源。此外,我们利用丰富的上下文特征信息来寻找最佳的个性化推荐。
https://www.zhuanzhi.ai/paper/5229744bf1a6972ca12240df07e0f236
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“HATC” 就可以获取《层次自适应上下文赌博机的资源约束推荐》论文专知下载链接