DL也要搞好「最基础科学」，这期论坛我们聚焦深度学习中的数学优化问题

2022 年 5 月 20 日 中国科学院自动化研究所

CASIA

解锁更多智能之美

数学是一切科学的基础，是人类探索自然最为重要的语言。诺贝尔奖得主费曼曾说：「如果没有数学语言，宇宙似乎是不可以描述的。」人工智能领域也不例外。

以 AI 技术中的机器学习及其分支深度学习为例，线性代数、概率论、统计学、微积分、信息论等数学概念都需要扎实掌握。可以说，机器学习以统计学和计算机科学为基础，以数学描述模型、指导模型为核心。事实上，常微分神经网络、Performer 、变分自编码器等很多优秀的模型，都是从数学角度推导出某些性质，进而构建整个模型。与此同时，模型结构与参数的性质、损失函数的收敛区间、参数空间的几何特性、最优化方法的梯度更新过程等等，都离不开数学，它是我们打开模型这一「黑盒」最为重要的工具。

人工智能技术与数学的融合是最为自然的，数学之外，在生物学、物理、化学、材料、地质等多领域，以深度学习为代表的AI与基础科学相互影响并共同进步。

为更好地促进学术交流，尤其是交叉学科和前沿工作的同行交流，机器之心与中科院自动化研究所与联合举办「人工智能×基础科学系列论坛」第二期将于5月25日在线上举办。

本次线上论坛以「深度学习中的数学优化问题」为主题，特邀北京大学数学科学学院教授李铁军主持，多位领域专家共同分享交流，日程如下：

主持人介绍

李铁军：北京大学数学科学学院教授，国家自然科学基金委杰出青年基金及优秀青年基金获得者，入选教育部「新世纪优秀人才」支持计划。研究领域为随机模型及算法、机器学习的数学理论与算法。在单细胞转录组数据分析、复杂网络的模型约化、生物体系反应随机动力学、稀有事件及能量景观等领域做出了重要成果。在包括 Nature Comm、PNAS、 PRX、 JCP、SIAM 系列等重要学术期刊共发表学术论文六十余篇。

嘉宾与主题介绍

分享主题：数学优化视角下的深度神经网络建模与应用

嘉宾简介：张兆翔，中国科学院自动化研究所研究员、博导，教育部长江学者，国家万人计划青年拔尖人才。主要研究方向包括脑启发的神经网络建模、视觉认知学习等，在 TPAMI、IJCV、JMLR、CVPR 等本领域顶刊顶会发表论文100余篇，担任或曾担任 IEEET-CSVT、Patten Recognition 等知名期刊编委，是 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名国际会议的领域主席（Area Chair）。

分享背景：近年来，以深度学习为代表的人工智能方法在感知、交互与决策等问题上取得了长足的进步，在部分任务上甚至媲美乃至超越人类的性能。一方面，深度学习作为机器学习领域的热点问题得到广泛关注，在性能上具有独到优势。另一方面，很多研究者又认为深度学习是一个黑盒模型，模型的设计，参数的选择往往依赖经验，缺乏理论性。我们在本报告中着重探讨如何面对不同的应用问题，从数学优化的视角加以形式化，进而指导深度神经网络的建模。事实证明，深度神经网络的结构设计和参数选择均有据可循，均可以从数学优化中汲取营养，从传统机器学习中寻求借鉴。

分享摘要：本报告首先探讨数学优化与深度学习之间关系；进而给出当前工作中一系列从数学优化中得到启发构建神经网络的案例；最后会介绍本课题组开展的若干代表性工作。这些工作都呼应了数学优化思想对于深度神经网络结构设计与参数选择的指导，都在具体应用问题上验证了所提方法的优越性。

分享主题：机器学习中的几何学方法

嘉宾简介：李阳阳，中国科学院数学与系统科学研究院助理研究员，研究方向为几何机器学习基础理论，包括流形学习、几何流学习、几何深度学习等。师从陆汝钤院士，2020年获得中国科学院优秀博士学位论文奖，近五年发表学术论文10余篇。

分享背景：在信息快速发展的现代社会，最具有价值的，最核心的宝藏是数据。在现实生活中，我们通过目前测量手段获取的数据，它们的底层结构是非欧空间的。当前的深度学习缺乏数学理论上的可解释性，以及大数据呈现出规模大、种类多、可变性强、产生速度快等复杂结构特点，限制了一些重要领域的发展。流形和图作为非欧几何数据集的两种典型，在人工智能中扮演着至关重要的角色，传统的欧氏几何已经无法阐释这类数据的内嵌规律。由此针对大规模非欧结构数据集，结合深度学习，几何深度学习的概念被提出。它是试图将网格化的深度神经网络模型推广到非欧几何领域（流形和图）的新兴技术的总称。

然而，目前在几何深度学习领域，仍存在一些理论及方法的不足尚未解决：如缺乏几何结构信息、缺乏非欧度量规则、缺乏理论可解释性等。如何从微分几何理论出发，面向非欧结构数据集，建立具有可解释性的几何学理论和方法，是当前人工智能领域的研究难点之一，急需数学理论的突破。

分享摘要：本报告围绕数据集的非欧曲率信息展开，共介绍两部分工作：几何流学习以及几何深度学习。首先介绍从数据集出发，构建新的离散几何流方程，学习非欧数据集的黎曼度量表示。其次介绍几何深度学习工作，包括基于几何流的深度度量学习算法，以及基于几何流的图神经网络方法。

分享主题：轻度过参数化模型的优化

嘉宾简介：鬲融，杜克大学三一文理学院计算机科学系副教授。他的研究兴趣集中在理论计算机科学和机器学习领域。因研究项目《非凸函数的优化前景——迈向可证明的神经网络算法》（Optimization Landscape for Non-convex Functions – Towards Provable Algorithms for Neural Networks）获得美国国家科学基金会杰出青年教授奖（NSF CAREER Award），2019 年获得斯隆奖学金。加入杜克大学任教前，在微软新英格兰研发中心从事博士后研究。博士毕业于普林斯顿大学。

分享摘要：过参数化在神经网络优化中起着重要作用，其拥有的参数远超表示数据所需的参数量。当前大多数关于过参数化的研究可归为两类：Neural Tangent Kernel（NTK）和平均场。NTK 分析收敛性强，但一般泛化能力较差，无法从数据中学习特征；平均场分析虽然可以从数据中学习特征，但现有研究往往需要无限乃至指数量级的神经元。本次演讲中，我将讨论我们近期在理解带有多项式个神经元的平均场优化问题方面的一些探索，并讨论这些工作中共通的思想。