不变性对于神经网络至关重要,它使得神经网络能够有效地泛化处理输入数据的变化,通过聚焦于关键属性同时过滤掉不相关的细节。在这篇论文中,我们通过具结构不变性的视角来研究神经网络中的表示学习。我们首先研究神经网络可以从数据中学习到的不变性的属性和限制。接下来,我们开发了一种方法来提取神经网络学习到的不变性结构,为学习到的不变性的质量提供了更为细致的分析。在下一章中,我们专注于对比学习,演示了如何通过更加结构化的监督来获得更好质量的学习表示。接下来的最后两章关注于具结构不变性表示学习在计算机视觉中的实际应用方面。
虽然在国际象棋中获胜、学习一种语言或作曲一首奏鸣曲所需的技能集看似截然不同,但我们以类似的概念方式处理所有这些任务。依赖先前的知识,我们寻求在一个能够高效导航至解决方案的路径的空间中表示任务。通过战略布局的兵结构和中心控制来表示一场象棋游戏,使人能够迅速看出一个位置的强弱,从而做出强势移动。通过语法规则表示语言,将词语的混乱转变为一个结构化系统,在这里即使遇到不熟悉的词汇,也能理解句子的含义。通过音乐理论表示音乐,将一堆音符转变为一个结构化的组合,其中音乐家可以轻松导航以选择下一个要演奏的和弦。在所有这些例子中,找到适当的表示是高效解决任务的关键步骤。我们将寻找高效表示的过程称为表示学习。
当我们处理日常任务、工作和例程时,涉及某种形式的表示学习。驾驶汽车时,我们学习交通规则的心理表示以安全导航,并使用城市布局的地图表示以高效导航。在我们的工作中,我们学会使用信息图表的形式,如图表、流程图或电子表格,来表示复杂的过程或数据,以便于交流。在社交互动中,我们学会解读身体语言和面部表情作为人们情感和意图的表示,以更好地理解他人。在这些例子中,我们转向表示学习,以结构化信息并简化手头任务的解决方案。
自然地,在人工智能(AI)时代,自动化表示学习正成为一个极具兴趣和重要性的任务。AI 驱动的表示学习不仅是 AI 驱动问题解决的关键组成部分,而且还可以作为一个工具,帮助解释和解读 AI 代理的预测。因此,研究 AI 驱动的表示学习对于构建值得信赖的智能系统至关重要。
本论文聚焦于神经网络中表示学习的过程。