近年来,我们已经看到了预训练神经网络来学习可迁移到视觉和NLP中看不见的下游任务的表征的巨大好处。然而,这种学习范式在诸如设计优化或控制等决策方面的研究还不多。在这篇论文中,我们概述了两个问题设置,可以受益于在决策制定的背景下的预训练。首先,我们描述了一个用于自动化设计优化的设置,特别是电路设计优化,在该设置中,特定领域的先验数据可以有效地提高基于模型的优化方法的样本效率。本文对如何提高基于模型的进化算法和贝叶斯优化方法的样本效率提出了新的思路,并进行了实证和理论分析。在第二个问题设置中,我们将讨论如何从大型任务无关数据集中利用无监督的预训练来提取行为表征,并进行少量的模仿学习。我们发现,当新任务的例子演示稀缺时,预训练agent提取技能是使他们准备进行少样本模仿的一个实用方向。
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html