增强离线学习算法 (Boosted Off-Policy Learning) - 专知论文

会员服务 ·

0

算法 · 学习算法 · 监督学习 · 经验风险 · 增强算法 ·

2023 年 5 月 2 日

Boosted Off-Policy Learning

翻译：增强离线学习算法

Ben London,Levi Lu,Ted Sandler,Thorsten Joachims

from arxiv, Final version as appeared in AISTATS 2023

We propose the first boosting algorithm for off-policy learning from logged bandit feedback. Unlike existing boosting methods for supervised learning, our algorithm directly optimizes an estimate of the policy's expected reward. We analyze this algorithm and prove that the excess empirical risk decreases (possibly exponentially fast) with each round of boosting, provided a ''weak'' learning condition is satisfied by the base learner. We further show how to reduce the base learner to supervised learning, which opens up a broad range of readily available base learners with practical benefits, such as decision trees. Experiments indicate that our algorithm inherits many desirable properties of tree-based boosting algorithms (e.g., robustness to feature scaling and hyperparameter tuning), and that it can outperform off-policy learning with deep neural networks as well as methods that simply regress on the observed rewards.

翻译：我们提出了第一个针对记录的赌率反馈进行增强学习的算法。与现有的针对监督学习的增强方法不同，我们的算法直接优化策略的期望奖励估计。我们对这个算法进行了分析，并证明了每轮增强时，超额经验风险都会减少（可能呈指数级下降），前提是基学习者满足“弱”学习条件。我们进一步展示如何将基学习者降低到监督学习，从而打开了一系列可用的基学习者，这些基学习者具有实际收益，例如决策树。实验表明，我们的算法继承了基于树的增强算法的许多理想性质（例如，对特征缩放和超参数调整的鲁棒性），并且可以胜过基于深度神经网络的离线学习以及仅回归观察到的奖励的方法。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

M1胆碱受体对AMPA受体GluA1亚基的调控及其在突触长时程增强和学习记忆中的作用及机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于非独立同分布样本的统计学习理论研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的混合动力电动汽车在线智能控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于弱线性回归树在线学习的自适应视频目标检测算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于金属等离子体增强和光子晶体效应的复合上转换薄膜与光伏应用探索

国家自然科学基金

0+阅读 · 2012年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

多核系统下调控模式识别的MapReduce模型及算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于directionlets变换的SAR图像相干斑噪声抑制算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Knowledge-driven Active Learning

Arxiv

0+阅读 · 2023年6月16日

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning

Arxiv

0+阅读 · 2023年6月16日

Diversifying Joint Vision-Language Tokenization Learning

Arxiv

0+阅读 · 2023年6月15日

Non-Asymptotic Performance of Social Machine Learning Under Limited Data

Arxiv

0+阅读 · 2023年6月15日

Mediated Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月14日

Bandit Social Learning: Exploration under Myopic Behavior

Arxiv

0+阅读 · 2023年6月14日

Model-Contrastive Federated Learning

Arxiv

10+阅读 · 2021年3月30日

Personalized Cross-Silo Federated Learning on Non-IID Data

Personalized Cross-Silo Federated Learning on Non-IID Data

Arxiv

10+阅读 · 2021年1月7日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

39+阅读 · 2019年7月31日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

《商用大语言模型的升级风险管理：国家安全运用》

自主人工智能：未来战争是否将是自主化的？

《从装备到文化：美陆军技术素养建设启示录》最新报告

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Knowledge-driven Active Learning

Arxiv

0+阅读 · 2023年6月16日

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning

Arxiv

0+阅读 · 2023年6月16日

Diversifying Joint Vision-Language Tokenization Learning

Arxiv

0+阅读 · 2023年6月15日

Non-Asymptotic Performance of Social Machine Learning Under Limited Data

Arxiv

0+阅读 · 2023年6月15日

Mediated Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年6月14日

Bandit Social Learning: Exploration under Myopic Behavior

Arxiv

0+阅读 · 2023年6月14日

Model-Contrastive Federated Learning

Arxiv

10+阅读 · 2021年3月30日

Personalized Cross-Silo Federated Learning on Non-IID Data

Personalized Cross-Silo Federated Learning on Non-IID Data

Arxiv

10+阅读 · 2021年1月7日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

39+阅读 · 2019年7月31日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

M1胆碱受体对AMPA受体GluA1亚基的调控及其在突触长时程增强和学习记忆中的作用及机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于非独立同分布样本的统计学习理论研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的混合动力电动汽车在线智能控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于弱线性回归树在线学习的自适应视频目标检测算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于金属等离子体增强和光子晶体效应的复合上转换薄膜与光伏应用探索

国家自然科学基金

0+阅读 · 2012年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

多核系统下调控模式识别的MapReduce模型及算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于directionlets变换的SAR图像相干斑噪声抑制算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员