几乎没有任何学科能够像机器学习在过去十年中那样经历如此快速的进展。即便是在过去的几年里,研究领域也在不断发展和重新聚焦于新的挑战,这些挑战往往由其潜力所驱动,能够改变社会并影响人类的思维、生活和工作方式。这些进展的核心组成部分是表示学习:一种将输入数据转化为新的表示形式的技术,该表示形式捕捉了数据中的结构和模式。
本论文并不聚焦于在典型学习范式中改进表示学习,而是探索表示学习在某些特定情境下的困难。我们的重点是受限条件下的表示学习,旨在朝着解决那些在表示学习过程中表现不稳定、性能差或“根本行不通”的设置迈出一步。
第1章首先概述了表示学习。它提供了表示学习的正式定义,探讨了早期表示学习算法的历史,并概述了这些方法通常需要的两个条件。然后,我们分析了这些条件一旦被打破,表示学习将如何受到干扰,并列出了几个现实世界中这些限制体现的情境。
第2章,我们聚焦于数据稀缺的限制,并以分子科学中的一个应用作为我们工作的动机。我们探讨了如何利用物理基础的分子模拟数据进行训练,以学习能够捕捉蛋白质-配体结合模式的表示。针对我们的目标任务——预测小分子是否激活或抑制特定蛋白质——我们发现,利用基于模拟数据训练的表示作为起点,可以显著提高建模性能。
第3章继续关注数据稀缺问题,但从不同的角度进行探讨。我们并非从一个任务转移表示到另一个任务,而是开发了一种元学习算法,该算法能够在只有很少标签样本的情况下,学习如何将输入转化为新任务的表示。与需要在标记示例上微调的先前工作不同,我们的方法在推理过程中不会更新模型参数,并且在许多小样本学习基准上设立了新的最先进水平。
第4章,我们转向学习离散表示的限制。这种范式具有挑战性,因为离散化将非可微分的点引入到通常用于学习表示的平滑目标函数中。我们重点研究一种流行的离散化方法——矢量量化,并改变了梯度如何通过这一操作的方式。在使用矢量量化的11种不同范式中,我们的梯度估算器提升了性能并减少了训练的不稳定性。
最后,第5章总结了本论文的贡献,并探讨了未来工作的可能方向。