自文明诞生以来,人类一直在努力理解智能的本质。 随着计算机的出现,人们开始尝试用计算机算法来模拟人类智能——这一领域由计算机科学家约翰·麦卡锡(John McCarthy)在 1956 年命名为“人工智能”(Artificial Intelligence,AI),并在近年来迎来了爆发式的发展。 人工智能研究的许多努力集中在对人类认知标志性能力的研究与复现,例如下智能棋类游戏、语言能力、视觉感知以及创造力。在撰写本文时,我们已经在上述领域取得了多项成功尝试——如今,计算机在国际象棋与围棋上可以击败任何人类棋手,可以在不借助词典的情况下将英语翻译成中文,可以在拥挤城市中实现自动驾驶,还能生成在艺术比赛中获奖的诗歌与绘画作品。
然而,公平地说,我们依然未能完全理解何谓类人智能或“通用”智能,以及如何复现它。 上述大多数人工智能的典型案例,都是由深度学习(Deep Learning)驱动的。 深度学习是一类算法,其历史可追溯到 20 世纪早期——当时人们尝试以一种高度抽象的方式,将生物大脑中神经元的连接与工作机制在计算机中加以复现。这样的系统被称为(人工)神经网络(neural networks),这是类比于生物神经网络的命名。它由称为“神经元”(neurons)的计算单元组成,这些单元通常按层次结构组织成多层(深度学习中的“深”即指拥有许多层的神经网络)。 神经元包含可调节的参数,可以通过一种称为学习(learning)的优化过程来针对特定任务进行调整。人工智能的一个分支领域——机器学习(Machine Learning, ML),则专注于研究用于设计和优化此类系统的数学方法。 深度学习(Deep Learning)是一个总称,指依赖人工神经网络的机器学习算法,而这些神经网络通常由大量层结构组成。 近年来,各类人工神经网络架构迅速涌现,它们分别提出了不同的连接模式以及学习系统所需执行的内部计算方式。 几何深度学习(Geometric Deep Learning)是深度学习的一个分支领域 [5, 6],专注于为具有非欧几里得结构(如图、流形)的数据开发人工神经网络。传统的深度学习模型通常处理类网格(grid-like)结构的数据(如图像、时间序列、文本),但许多现实世界问题涉及更复杂、不规则的几何结构。 该领域尤其关注从几何先验(geometric priors)角度分析神经网络。不同模型通过在具有对称群(symmetry groups)结构的域上对信号建模,引入归纳偏置(inductive bias),以此对抗维度灾难(curse of dimensionality)。几何深度学习为将物理对称性等先验知识融入新型神经网络架构的设计提供了一种结构化方法,同时还能在统一框架下归纳与理解现有的成功模型。