近年来,机器学习领域广泛采用大型基础模型(foundation models)。尽管这些模型具有很强的表达能力,但在针对有限的领域特定数据集进行训练时,仍容易出现过拟合。因此,在数据稀缺的场景下,借助更大但间接相关的数据集进行训练以提取有用的表征,以及更一般意义上的“元学习”(meta-learning),已成为高效使用此类模型的关键。本论文从理论角度研究了元学习背后的基本假设,聚焦于两个设置:
元监督学习(Meta-Supervised Learning)。已有研究分析了在多个回归任务上学习固定表征的统计复杂度。然而,在实际应用中,包括 MAML 等主流梯度方法在内的大多数方法都会为每个任务微调(fine-tune)表征。因此,我们开展了首个关于基于微调的表征学习的理论研究。首先,我们对一类通用表征上的代表性训练过程推导了样本复杂度上界。其次,我们建立了“可微调表征”与“固定表征”之间的样本复杂度差异,从而揭示了在哪些情形下微调更为优越。
元强化学习(Meta-Reinforcement Learning, Meta-RL)。在元强化学习中,任务之间存在多种共享结构的可能性,例如分层强化学习(HRL)中的“选项”(options)结构。但已有的 HRL 后悔值(regret)界分析往往假设分层结构已知。为弥补这一空白,我们构造了一种在满足适当“覆盖条件”下可被理论保证恢复的分层结构。进一步地,我们证明,在较弱假设下,该恢复的结构可以显著提升下游任务的学习表现,使其后悔值优于最小最大策略(minimax)指数级别。这些覆盖条件涵盖了时间、状态/动作的抽象等概念,表明我们的分析能够捕捉 HRL 在实践中的关键要素。