徐宗本. 人工智能的10个重大数理基础问题. 中国科学: 信息科学, 2021, 51: 1967–1978
1
大数据的统计学基础
当下人工智能的主流技术(如深度学习)是以对大数据的加工处理为基础的, 它的模型、分析、计算基础都根置于统计学.
统计学一直被认为是主导和引导人们分析和利用数据的学科. 传统上, 它根据问题需要, 先通过抽样调查获得数据, 然后对数据进行建模、分析获得结论, 最后对结论进行检验. 所以, 传统统计学是以抽样数据为研究对象的, 遵循了“先问题, 后数据”的模式和“数据→ 模型→ 分析→检验”的统计学流程. 当今“拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇” [2], 呼唤了“先数据, 后问题”的新模式. 这一新模式从根本上改变了传统统计学的研究对象和研究方法, 更是动摇了传统统计学的基础. 要解决人工智能的基础问题, 就必需首先解决大数据统计学基础问题[3,4].
熟知, 统计学是建立在概率论, 特别是像大数定律、中心极限定理、正态分布理论等这样一些基本数学原理基础上的. 这些基本原理大都是在独立同分布(iid)样本和观测变量个数p远少于数据量n(即统计学常说的p≪n)的假设下被证明的. iid假设意味着样本须来自同一总体而且样本独立抽样, p≪n假设指“问题本身并不复杂而积累的经验(观测)不少” (用线性方程组来理解, 相当于“方程的个数大于未知量个数”). 这两条假设是如此基本和影响深远, 以至于统计学中的许多原理都以此为规约. 例如, 一个观测模型的误差与系统内部变量无关, 或者说误差和结构不相关(外生性假设), 这是统计学一直以来的公设. 很显然, 所有这些假设在大数据情形都常常不满足, 甚至会被彻底破坏. 例如, 自然记录/收集的数据既不可能仅来自于同一总体, 也不可能保证彼此相互独立; 像图像这样具有任意高分辨率(像素个数p)的数据, 任何图像集合(个数为n)都不可能满足p≪n, 而已有大量研究说明, 当p≪n破坏之后, 就必然会出现“伪相关”和“内生性"(incidental endogeneity)等伴生问题[5]. 为了能将AI模型与分析置于坚实的大数据分析框架中, 显然我们需要在各种非iid、非p≪n条件下去重建大数定律、中心极限定理等概率论工具, 我们也需要在真实的大数据条件下去建立各种估计的大样本性质. 这是建立可信、可解释人工智能的必备条件.
统计学与人工智能有很强的关联性但又有显著区别. 统计学使用专有的随机变量或分布函数法去建模数据, 但假设空间多限于线性或广义线性模型, 此时模型参数具有解析形式, 可通过大样本分析去建立相应推断的可解释性理论. 人工智能不提供对数据的建模, 但使用像深度神经网络这样高度复杂的函数去建模, 即使用高度复杂的假设空间, 具有应用的普适性, 但由于模型参数难有解析形式, 也必然带来推断的不可解释性. 这两种建模方法显然有着各自不同的优势与劣势, 能否将这二者融合? 如能, 如何融合? “巧用简单模型、局部拼接整体、逻辑与非逻辑混合、内核+边界、图网络”等都是值得尝试的路径. 所有建模都必须在表示的广泛性和统计推断的易实现性或可解释性之间取得平衡, 这是所有方法的瓶颈. 另外, 大数据分析方法、大数据抽样理论、大数据假设检验等也都是亟需建立的统计学新理论.
2
大数据计算的基础算法
人工智能算法本质上是大数据分析处理算法,主要解决大数据分析与处理技术底层依赖的相关数学模型、分析原理与计算方法等问题. 它是人工智能技术与应用的基础算法与理论支撑, 是数学与计算科学深度融合的一个新领域.
大数据分析处理的核心是通过计算对大数据进行加工处理和从中萃取有用信息. 它通常包含查询、比对、排序、化简等数据处理任务和聚类、分类、回归、降维、相关性分析等数据分析任务. 无论是数据处理还是数据分析, 它们都是通过合适的计算机算法实现的. 这些算法在AI中被称为核心算法. 核心算法的核心步骤通常要求在大数据环境下去解一些基本的数学问题, 求这些基本数学问题的算法被称为大数据计算基础算法. 当前, 人工智能应用的主要障碍之一是, 对真正的大数据, 大部分已知的核心算法和基础算法失效(要么不能用, 要么算不出满意结果), 例如, 还没有一个好的算法能对超过TB级的数据进行直接聚类(参见文献[4]).
缺乏这样的大数据算法之根本原因在于传统计算理论, 以及基于传统计算理论的算法设计与分析方法学在大数据环境下失效. 对任何一个大数据分析和处理问题, 设计出一个超低复杂性的算法都不是简单的事. 正因为如此, 美国国家科学院/全国研究理事会在其发表的报告[6]中, 将在大数据环境下求解如下7个数学问题的问题称为 “7个巨人问题”, 并认为是重大挑战:
∙基本统计;
∙广义N-体问题;
∙图计算问题;
∙线性代数计算;
∙最优化;
∙积分;
∙比对问题.
而他们所列出的大数据环境包括:
∙流环境: 数据以“流”的方式给出;
∙磁盘环境: 数据存储在计算外设的磁盘;
∙分布式环境: 数据存储在不同机器或边缘端;
∙多线程环境: 数据在多处理器和共享RAM的环境中存储.
在大数据环境下如何求解这7个巨人问题,是大数据计算所面临的核心挑战. 值得注意的是, 在通常单机环境下, 求解这7个巨人问题都有非常成熟的算法(可在常用的数学算法库中调用). 由此可见, 大数据对各学科的冲击是如此之基础和普遍. 大数据基础算法研究本质上受大数据计算理论的限制. 人们期望在超低复杂性(例如至少在线性复杂性及以下)水平上寻找解决问题的算法. 然而, 当我们准备放弃“多项式复杂的算法是一个好算法”这样的传统观念时, 猛然发现: 未来的路在何方?
3
数据空间的结构与特性
我们所处的世界由人类社会、物理空间(这二者常统称为现实世界)和信息空间(称为虚拟世界)构成(文献[3]). 人类社会的构成元素是人, 物理空间的构成元素是原子/分子, 而信息空间的构成元素是数据,所以信息空间亦称为数据空间, 是由数字化现实世界所形成的数据之全体. 人工智能作用在数据空间是利用数据空间的方法认知和操控现实世界的技术.
从这个意义上, 数据空间理应是人工智能(或更一般地, 数据科学)最基本的认知对象. 数据空间(或它的特定子空间)所具有的特征、结构、运算、特性等对于解译和应用数据显然具有本质的重要性. 譬如, 数据科学面临的首要任务之一是, 如何对自然产生的图像、视频、文本、网页等异构数据进行存储处理. 由于这些数据并不能用关系数据库这样传统的记录方式去记录, 它们常被称为是非结构化的. 我们知道, 每一类(或每一个)数据都有着它自己特定的记录方式, 如彩色图像用R-G-B这3个像素矩阵来表示, 可见它并不是完全无结构的(无结构就无记录), 所谓非结构化本质上不是说它们无结构, 而是它们的结构不统一、不规整或者相异(如图像可能具有不同的分辨率, 也可以是从不同谱段采集的, 既有图像又有文本等). 要储存这样的非结构化数据并便于处理, 唯一可能途径是将这些非结构化数据进一步形式化, 或称“结构化”, 即在某种更加统一、更加抽象的数学结构下, 重新表达这些所有类型数据, 并基于这样的形式化去存储和处理. 这样的过程即是非结构化数据的结构化. 只要有存储, 就必然要结构化. 结构化的本质是寻求数据的数学表示, 而关键是设置一个最小的公共维度, 使其在这个维度下, 所有类型数据在数学化空间中都能得到表达(当然, 对每一类而言, 可能会有冗余). 要找到这样的最小公共维度, 显然依赖于知晓每一类型数据的最小表示长度. 以图像为例, 我们希望知道: 图像怎样才能够最简约地被表示? 图像放到一起能互相表示吗? 图像空间有维数吗? 如有, 是多少? 等. 把不同分辨率的图像放到一起可构成一个类似函数空间的无限维空间, 这个空间内的图像可以认为是超高分辨率或无穷分辨率的, 这一空间不仅为存储不同分辨率图像提供框架, 也为理解图像分辨率的极限行为提供理论基础. 问题是: 这样的无穷维图像空间有什么特别性质? 它对超高分辨率图像会带来什么新的洞察? 澄清这样的图像空间(类似地, 文本空间等)整体性质, 是彻底解决非结构化数据存储的出路所在. 在这样的探索中, 产生新的、更为有效的AI技术是自然不过的事.
除像上述这样需要对数据空间的某些子空间(如图像空间)性质展开探究之外, 我们也期望对各种数据子空间的数学结构与性质展开研究. 严格地说, 当我们使用数据空间、图像空间、文本空间这样的术语时, 这里“空间”往往仅指“集合”, 并没有指它们已经构成数学意义上的“空间”, 因为在其中我们并没有赋予它们特定的“运算”和“拓扑”. 一个熟知的事实是, 当一个对象集合被赋予某种数学结构(运算+拓扑)后可成为数学意义下的空间; 一个数学意义下的空间内部元素可以按照特定规律去运算, 也能够使用一些特定工具去分析. 所以, 对一类对象(如图像), 只有把它放在对应的数学空间中去考察, 才能有望得到规范化、严格化的分析, 从而获得更为本质的认知. 于是, 一个自然的问题是: 对常见的这些数据空间, 能不能赋予某种数学结构使它们成为数学上的空间呢? 如能, 它们又会成为什么样的数学空间? 是内积空间、赋范空间, 还是拓扑空间(请注意, 不同的数学空间提供的分析工具是有差别的)? 应该赋予什么样的数学结构才最自然、最合理、最有利于数据分析? 让我们仍以图像空间为例说得更具体一些: 我们能不能通过赋以缩放、卷积、平移+旋转等操作或运算, 并选取图像差异性的一种度量, 如欧氏距离、KL散度、Wasserstein距离等, 使图像空间成为数学意义下的空间? 如能, 怎样的选择和搭配才能使所建立起来的空间更有利于图像分析?
除数学空间这样的分析工具外, 数据空间的代数结构也希望得到研究. 研究数据空间的根本目的是, 为人工智能技术寻找新的突破口, 为更加有效的数据分析与处理提供新框架、新工具、新方法和新技术. 只要是有利于这一目标的任何研究都应受到鼓励.
4
深度学习的数学机理
当代人工智能的主流技术是以深度学习为代表的. 深度学习的巨大成功极大提升了它作为普适AI技术的主导地位, 但另一方面, 也唤起人们对深度学习本质局限性和“后深度学习时代”的思考. 深度学习的独特优势是, 对任意复杂数据都有强的建模能力, 只要训练数据足够, 就一定可学习、可应用, 从而能提供普适的AI解决方案. 但它的致命缺陷是, 网络结构难设计、结果不具可解释性、易受欺骗等.
为什么深度学习具有这些独特的优势, 别的方法就不具备吗? 为什么它有这些致命缺陷, 它们就不能被克服吗? 理性而严格地回答这些问题, 全面认识深度学习和思考后深度学习时代AI的发展, 都是核心而紧迫的问题.
定量刻画深度学习的构–效关系是首要的数学原理问题. 假设
是一个深度神经网络, 它的性能(如泛化性)自然应是深度k、宽度l、每层神经元的非线性传输函数等结构参数的函数. 然而, 如何定量描述或定性地刻画这一函数关系(即构–效关系)呢? 写出这样的函数可能是艰难的, 但估计它们的性能与结构之间的某种“可控性”是可能的. 例如, 让ε是一个泛化性度量,是理想结构, 则形如
的不等式估计了深度网络泛化性能的上、下界. 近年来已有关于深度学习泛化上界的研究, 但还只限于对其中某些单一参数(如深度)的影响估计. 更加全面的评估, 特别是有关深度学习泛化下界、本质界的估计尚未见到. 所有这样的研究十分基本, 它不仅能帮助人们认识深度学习机理、评价其性能、改进其结构, 更是设计深度学习网络的理论依据, 是推动深度学习应用从“艺术"走向“科学"的重要步骤.
建立有确定数学意义的信息深度表示理论是另一个基本数学原理问题. 深度学习的深“层"结构代表着它是从深度“复合"的意义上来对函数作逼近的, 这使得对深度学习的解释性变得困难. 回想, 数学上的泰勒(Taylor)级数展开、傅里叶(Fourier)级数展开等, 都为我们提供了非常清晰可解释的函数逼近方式(如前者以“逼近阶"提高的方式, 后者以“频率"提高的方式渐近于被逼近函数), 而这些展开是“叠加"式的. 所以, 要解释深度网络表示机理, 搭建函数的“叠加"式逼近与“复合"式逼近之间的桥梁是重要的. 假定fk是对函数f的第k次近似, εk是对f−fk的某种误差度量, 则
提供了对f的一个“叠加"式逼近. 根据神经网络的万有逼近定理, 存在线性函数Lk(x)和非线性函数Nk(x)=G(Wx+b)使它们的复合任意逼近fk+εk, 即
如果我们期望Lk+1Nk+1具有“复合"的性质, 即
从而它有望通过调整Lk+1和Nk+1实现
这一等式提供了审视深度学习的一个新视角. 一方面, 当深度网络已被训练, 我们可以将上式εk作为定义, 而通过对εk的分析来阐明每一层(块)的作用(例如是否单调下降); 另一方面, 可以将εk设置为优化目标, 对应每一层期望能抽取到的特征(及由此带来的表示精度变化), 而通过分层目标指导网络训练. 如此能带来一个有确定数学意义、并能明确解释的深度学习架构吗? 这一架构与近年来兴起的残差网(residual net)有关联性, 但又明显不同.
学习过程的收敛性也是深度学习一个亟待解决的问题. 深度结构的复杂性(尤其是各种神经元的非线性)使得训练一个深度网络是一个高度非线性、非凸的优化问题, 而大数据训练集又使得优化算法的选择离不开随机梯度的使用, 所有这些都使得证明深度学习的收敛性并不容易. 近年来出现了一些通过连续动力系统方法证明深度学习收敛性的尝试, 但很显然, 深度学习训练算法是离散动力系统, 运用连续动力系统方法只能刻画学习率渐近于零时训练算法的收敛性, 实际的深度学习训练算法收敛性还远远没有解决.
深度学习的稳健性也值得深入研究, 它用于揭示当训练集有小的变化时, 网络学习结果是否也会有小的变化. 这一研究对于认识和防止深度学习被欺骗、被攻击有重大意义.
5
非正规约束下的最优输运问题
人工智能中的诸多问题都是以数据输运(data transportation)或者说数据打通为基础的. 例如, 机器翻译需要把两种语言打通、把语音与文字打通, 机器视觉需要把图像与文字打通, 辅助残疾机器人需要把脑电信号与视觉场景信息打通等. 事实上, 人的认知能力是靠看、听、闻、触等多种感知方式所获得的“数据"融合实现的, 这其中所表现的也正是“把异构的多类数据/信息在某个层面上打通"这种智能.
数据输运可以形式化为这样的问题: 假定有一种结构的数据μ0和另一种结构的数据集μ1, 我们需要在某个约束下将μ0 “搬运"到μ1. 让我们用F(μ0,μ1;P)表示将μ0 “搬运"到μ1且满足约束P的所有可能方式, 则在数学上, 可视μ0和μ1为两个测度, P为约束, 可用变换T:μ0→μ1来实现“搬运". 于是, 数据输运可建模为如下最优传输问题(optimal transportation problem, OTP): 寻找T*使满足
其中,C( x,T( x ))表示将x “搬运"到T(x)所付出的代价. 当C(x,T(x))取为欧氏度量, 即x与T(x)之间的欧氏距离, 且P取为“保质量"时, 数学上对此已广泛而深入的研究(参见文献[7]), 且已形成一套完整的理论和一些有效的实现算法.
然而, 人工智能的很多应用要求P不是“保质量", 而是要保其他性质. 例如, 机器翻译要保语义, 医学CT转换成MRI要保解剖结构, 信息传输从一个网络进入另一个网络要保信息熵等. 对这些非常规约束下的最优传输问题, 无论是数学理论, 还是求解方法都还没有得到研究. 这是人工智能的核心基础问题之一. 很显然, 数据之间之所以需要“打通", 或者能够“打通", 根本原因是它们之间存在某些“共有特征"或者“不变量", 如语言翻译之间的语义, CT转换成MRI之间的“同一人体"等. “保不变量"应是数据输运的最本质约束, 含不变量的特征空间是数据输运的可靠“中间站". 然而, 什么才是一个问题的不变量呢? 一个不变量(例如语义)在不同结构空间中(例如中文语言空间、英文语言空间)又是如何被表达的? 所给出的两个数据集μ0和μ1各自含有的特征与不变量交集有多大? 如何能够实现“保不变量"意义下的最优传输? 所有这些是数据转换、打通的基础, 也是迁移学习的最根本问题.
6
如何学习学习方法论
学习方法论是指导、管理学习者如何学习/完成学习任务的一般原则与方法学. 在人工智能从人工化, 走向自动化, 迈向自主化的大趋势下, 让机器学会人类的学习方法论, 或者更严格地说, 学会模拟学习方法论(simulate learning methodology, SLM) 成为AI 发展的必由之路(参见文献[8]). 作者认为, 学习方法论的模拟可以在不同层次上实现, 例如可通过学习解决一族强相关问题的公共方法论解决另一个强相关问题, 通过学习解决一族强相关问题的公共方法论解决另一个弱相关问题, 通过学习解决一族弱相关问题的公共方法论解决另一个不相关问题等. 目前已开始有在第1层次和第2 层次上的探索(如learning to learn, learning to teach 等(参见文献[9,10])), 但还都集中在非常低的层次上.目前, 特别需要将学习方法论的学习提升到理论层次. 推动这一提升的关键一步是将学习方法论的学习置入一个合适的数学框架. 假定要解决的问题属于问题类F, 希望达到的性能是P. 我们希望通过学习解决F 中一个子类F0问题的公共方法论解决F中的任何一个问题. 假定A是以这种方式解决问题的一个算法. 这种描述提供了学习方法论学习的一个形式化描述, 但还远未构成数学框架, 亟需回答下述理论和实践问题(参见图1).
图1 函数空间上的学习理论
7
如何突破机器学习的先验假设
8
机器学习自动化问题
9
知识推理与数据学习的融合
10
智能寻优与AI 芯片
3 结论
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“AI10” 就可以获取《徐宗本院士:人工智能的10个重大数理基础问题》专知下载链接