文献中考虑的许多序列决策问题变体取决于反馈的类型和它们揭示的有关相关奖励的信息量。之前的大多数工作都研究了行动的反馈揭示了与行动相关的奖励的案例。然而,在许多领域,如众包、医疗诊断和自适应资源分配,行动的反馈可能是薄弱的,即可能根本没有揭示任何关于奖励的信息。如果没有任何关于奖励的信息,就不可能了解哪种行动是最佳的。显然,只有在问题结构是这样的,即可以在不明确知道奖励的情况下识别最佳行动的情况下,学习最佳行动才是可行的。本文的目标是研究一类问题,在不明确知道奖励的情况下可以推断出最优行动。研究了无监督顺序选择(USS),所选行动的回报/损失从未显示,但问题结构适合于识别最优行动。本文还提出了一种名为审查半Bandits (CSB)的新设置,从一个行动中观察到的奖励取决于分配给它的资源数量。

本文的主要研究内容是USS问题。在USS问题中,无法从观察到的反馈中推断出与动作相关的损失。这种情况出现在许多现实应用中。例如,在医疗诊断中,患者的真实状态可能不为人知;因此,测试的有效性无法得知。在众包系统中,众包工人的专业知识水平是未知的;因此,他们的工作质量是不可知的。在此类问题中,可以观察到测试/工作者的预测,但由于缺乏真实值,无法确定其可靠性。通过比较不同动作得到的反馈,可以找到一类USS问题在满足“弱支配”性质时的最优动作。针对该问题,本文提出了基于置信上界和Thompson采样的性能最优算法。

本文提出一种称为审查半bandits (CSB)的新设置,其中从行动中观察到的反馈取决于分配的资源数量。如果没有分配足够的资源,反馈就会被“审查”。在CSB设置中,学习者在每一轮中在不同的活动(动作)之间分配资源,并从每个动作中接受审查损失作为反馈。目标是学习一种资源分配策略,使累计损失最小化。每个时间步长的损失取决于两个未知参数,一个与动作有关,但与分配的资源无关,另一个取决于分配的资源数量。更具体地说,如果动作的资源分配超过一个恒定的(但未知的)阈值,该阈值可以取决于动作,则损失等于零。CSB模型可以应用于许多资源分配问题,如警察巡逻、交通规则和执行、偷猎控制、广告预算分配、随机网络效用最大化等。

论文的最后一部分重点研究了多玩家多臂匪徒的分布式学习,以识别最优动作子集。这种设置是这样的,奖励只适用于那些只有一个玩家参与的行动。这些问题适用于无线ad hoc网络和认知无线电中寻找最佳通信信道的问题。本文的贡献是通过利用这些问题表现出的特定结构来解决上述序列决策问题。对于这些具有弱反馈的每个设置,开发了可证明的最优算法。最后,在合成数据集和真实数据集上验证了它们在不同问题实例上的经验性能。

https://www.zhuanzhi.ai/paper/309b90e6694df9044e90a6f254fa559a

成为VIP会员查看完整内容
22

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
67+阅读 · 2023年2月23日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
54+阅读 · 2023年2月18日
《多智能体任务规划》2022博士论文
专知会员服务
224+阅读 · 2022年11月20日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
77+阅读 · 2022年10月19日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
79+阅读 · 2022年9月20日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
SIGIR2022 | 从Prompt的角度考量强化学习推荐系统
机器学习与推荐算法
1+阅读 · 2022年5月24日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年2月27日
Arxiv
28+阅读 · 2023年1月8日
Arxiv
19+阅读 · 2020年12月23日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
25+阅读 · 2018年8月19日
VIP会员
相关VIP内容
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
67+阅读 · 2023年2月23日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
54+阅读 · 2023年2月18日
《多智能体任务规划》2022博士论文
专知会员服务
224+阅读 · 2022年11月20日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
77+阅读 · 2022年10月19日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
79+阅读 · 2022年9月20日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2023年2月27日
Arxiv
28+阅读 · 2023年1月8日
Arxiv
19+阅读 · 2020年12月23日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
25+阅读 · 2018年8月19日
微信扫码咨询专知VIP会员