与传统的监督学习不同,在许多情况下,只有部分反馈是可用的。我们可能只观察所选择的行动的结果,而不是与其他选择相关的反事实的结果。这些设置包括各种各样的应用,包括定价、在线营销和精准医疗。一个关键的挑战是,观测数据受到系统中部署的历史策略的影响,从而产生偏倚的数据分布。我们将这一任务视为一个领域适应性问题,并提出了一种自训练算法,该算法通过伪标记将观察数据中有限的看不见的行动的分类值的结果来模拟随机试验,我们称之为反事实自训练(CST)。CST迭代地输入伪标签并重新训练模型。此外,我们还发现输入一致性损失可以进一步提高CST性能,这在最近的伪标记理论分析中得到了证明。我们证明了所提出的算法在合成和真实数据集的有效性。

https://arxiv.org/abs/2112.04461

成为VIP会员查看完整内容
24

相关内容

【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
19+阅读 · 2021年12月18日
【AAAI2022】学会学习可迁移攻击
专知会员服务
15+阅读 · 2021年12月15日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
专知会员服务
21+阅读 · 2021年2月6日
专知会员服务
25+阅读 · 2021年1月21日
专知会员服务
3+阅读 · 2020年12月14日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
专知会员服务
29+阅读 · 2020年9月18日
SIGIR2020 | 一种新颖的推荐系统重训练技巧
机器学习与推荐算法
6+阅读 · 2020年9月7日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关VIP内容
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
19+阅读 · 2021年12月18日
【AAAI2022】学会学习可迁移攻击
专知会员服务
15+阅读 · 2021年12月15日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
专知会员服务
21+阅读 · 2021年2月6日
专知会员服务
25+阅读 · 2021年1月21日
专知会员服务
3+阅读 · 2020年12月14日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
专知会员服务
29+阅读 · 2020年9月18日
微信扫码咨询专知VIP会员