**最近机器学习方法的大部分成功都是通过利用过去几年产生的大量标记数据而实现的。**然而,对于一些重要的实际应用来说,如此大规模的数据收集仍然是不可行的。这包括机器人、医疗健康、地球科学和化学等领域,在这些领域获取数据可能既昂贵又耗时。在本文中,我们考虑三个不同的学习问题,其中可以收集的数据量是有限的。这包括在在线学习期间限制对标签、整个数据集和生成经验的访问的设置。本文通过采用序列决策策略来解决这些数据限制,这些策略在收集新数据和根据新获得的证据做出明智的决策之间迭代。**首先,解决标签获取成本较高时如何高效地收集批量标签的问题。**概率主动学习方法可用于贪婪地选择信息量最大的待标记数据点。然而,对于许多大规模问题,标准的贪心算法在计算上变得不可行。为缓解这个问题,本文提出一种可扩展的贝叶斯批量主动学习方法,其动机是近似模型参数的完整数据后验。

**其次,我们解决了自动化分子设计的挑战,以加速对新药物和材料的搜索。**由于迄今为止只探索了化学空间的一个小区域,可用于某些化学系统的数据量是有限的。本文通过将3D分子设计问题制定为强化学习任务,克服了生成模型对数据集的依赖,并提出了一种对称感知策略,可以生成用以前方法无法实现的分子结构。

**最后,我们考虑了如何在不同任务中有效地学习机器人行为的问题。**实现这一目标的一个有希望的方向是在不同的任务上下文中泛化局部学习的策略。上下文策略搜索通过显式地将策略约束在参数化上下文空间上,从而提供数据高效的学习和泛化。进一步构建上下文策略表示,在各种机器人领域实现更快的学习和更好的泛化。

成为VIP会员查看完整内容
75

相关内容

剑桥大学(英语:University of Cambridge;勋衔:Cantab)为一所座落于英国剑桥郡剑桥市的研究型大学。它是英语世界中历史第二悠久的大学,也是世界现存第四古老的大学。剑桥大学的起源为一群牛津大学的学者,因与牛津市民发生冲突而移居至剑桥。剑桥与牛津这两所在中世纪建立的英国大学,在校务运作、学术声望、社会地位等多方面都非常相似,经常合称为“牛剑”
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
70+阅读 · 2023年2月23日
【普林斯顿博士论文】神经符号机器学习推理,133页pdf
专知会员服务
47+阅读 · 2023年2月1日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
134+阅读 · 2022年10月4日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年3月31日
Arxiv
35+阅读 · 2021年1月27日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
22+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员