人工智能(AI)领域的一个长期目标是构建能够自主做出一系列决策以与世界交互的智能体。当智能体与环境交互时,常常会遇到先前从未见过的新情境,而此类情境往往无法由我们显式建模。在这种情况下,智能体必须通过交互来了解其环境,即通过试错过程来学习——这是强化学习(Reinforcement Learning, RL)所擅长建模的问题。 强化学习的一个核心目标是构建能够解决多样化学习任务的智能体(即具备广泛的泛化能力),同时还能从少量样本中迅速学习(即快速适应)。尽管 RL 在多个领域取得了惊人的进展,从围棋到核聚变控制等多样任务都展现了良好的泛化能力,但它依然存在样本效率低、适应速度慢的问题。 本论文探讨了元强化学习(Meta-Reinforcement Learning, Meta-RL)作为解决这些挑战的方案。在元强化学习中,智能体被直接训练以便能在一组任务分布上快速适应。然而,在广泛任务分布下实现泛化依旧是元强化学习中的重大难题。 为应对这一挑战,我们在第 4 章提出使用超网络(Hypernetworks)——即用于生成其他神经网络权重与偏置的神经网络。为了稳定地训练超网络,我们提出了一种新的初始化策略,显著提升了其泛化性能。在第 5 章中,我们进一步探讨了超网络的表现,并展示:结合我们提出的超网络,即使是简单的端到端目标函数,也能超越更复杂的设计。 第 6 章中,我们探讨了序列模型在元强化学习中的作用,特别关注对历史状态转换具有置换不变性(permutation invariance)的序列模型。理论上,这种归纳偏置足以表示最优策略,并有助于缓解梯度衰减问题。然而,我们发现引入可控的置换变异性(permutation variance)能提升架构的鲁棒性,并使模型具备表示次优策略的能力,而这些次优策略往往可以作为通向最优解的中间桥梁。 最后,在第 7 章中,我们将上述方法迁移到实际应用中,探讨了将元监督学习应用于蛋白质功能预测任务中的效果与差异。 总的来说,本论文提出了多种表示方法,显著提升了元强化学习智能体的能力。我们证明,利用超网络可以有效训练元强化学习模型,但前提是必须进行稳定的初始化;简单的端到端训练目标在超网络的加持下同样有效;而置换不变性虽然重要,但需要与置换变异性合理结合方可发挥其最大效能。通过整合这些理论与方法,我们为构建同时具备快速适应性与广泛泛化能力的 RL 智能体提供了可能路径,进一步推动了 AI 领域的核心目标。