为了克服深度学习模型的巨大样本复杂性,我们可以利用人类和科学知识的基本元素,并将这些元素融入我们的模型中。通过这样做,我们可以短路数千年的进化发展,这使得人类能够迅速学习,并且提供了一个框架来适应新知识。在这项工作中,我开发了将数学归纳偏见融入我们模型的新方法,使它们偏向于反映我们的先验知识和我们的知识。这项工作有助于拓宽等变模型构建的范围和自动化,跨越多个领域,揭示归纳偏见在学习和泛化中的作用,并开发新的机器学习模型,用于科学应用,捕捉相关的科学知识。 人工智能的一个关键方面是能够从数据中学习并泛化到新的、以前未见过的情况。深度学习模型在各个领域(从计算机视觉到自然语言处理)已展示出令人印象深刻的性能。然而,它们的成功往往需要大量的数据和计算资源。这一局限性提出了一个根本问题:我们能否将人类和科学知识的基本元素注入我们的模型中,以加速学习和改善泛化?这个问题的答案是本论文的中心焦点,我们探索了将数学归纳偏见融入模型的新方法,使模型偏向于反映我们的先验知识和我们的知识。 在自然界中发现的丰富的对称性和等变性长期以来一直是寻求构建更稳健和高效模型的研究者的灵感源泉。通过直接将这些属性编码到我们的模型中,我们可以潜在地实现更快的学习、更好的泛化和提高可解释性。在这篇论文中,我们首先开发了一种用于构建矩阵群的等变层的完全通用算法,称为Equivariant-MLP,将设计等变网络的任务(至少对于低维数据)转化为纯计算问题。通过Equivariant-MLP,我们帮助降低了在动态系统、粒子物理学和机器人学等多个领域构建高效学习者的门槛。 在灵活性和归纳偏见之间找到正确的平衡仍然是一个持续的挑战,就像其他结构一样,对称性常常被真实数据的混乱现实所破坏。为了解决这种紧张关系,我们引入了残差路径先验(Residual Pathway Priors,RPPs),一种将硬体系结构约束转化为软概率先验的方法。RPP指导模型朝着结构化的解决方案发展,同时保留捕捉额外复杂性的能力,并帮助以贝叶斯方式编码我们的信念。我们展示了RPP在各个领域的广泛适用性,包括强化学习,在那里我们的方法超越了基线模型自由代理,并改善了基于模型的强化学习中学习到的转换模型。 为了更好地理解等变性在不同架构和训练方法中的影响,我们引入了李导数。李导数是一种强大的数学工具,用于测量等变性,并使我们能够识别和隔离由特定网络层产生的等变性失败。通过分析数百个预训练模型,我们揭示了模型大小、准确性和等变性之间关系的惊人见解。我们的发现挑战了传统的叙述,并强调了更好的训练策略对等变性受到尊重的程度的影响。 最后,为了更深入地理解深度学习为什么有效,我们开发了一种证明深度神经网络上PAC-Bayes泛化界限的新方法。这种方法在图像任务上产生了最先进的泛化界限,并使我们能够更好地理解模型大小、迁移学习、等变性以及模型中的结构与数据中的结构对齐程度的作用。我们的发现揭示了大型模型可以被压缩到比以前所知的更大程度,支持奥卡姆剃刀,并提供了关于归纳偏见和泛化之间相互作用的新见解。 总之,这篇论文代表了我们在如何将数学归纳偏见融入深度学习模型方面理解的重大进步。通过拓宽等变模型构建的范围和自动化,揭示归纳偏见在学习和泛化中的作用,并为科学应用开发新的机器学习模型,捕捉相关的科学知识,我们希望不仅推动深度学习可能性的边界,而且激发出在追求能够迅速学习、有效泛化并尊重自然界原则的人工智能方面的新研究途径。