给定一个机器学习模型,在近似、估计和优化误差的收敛速度不会随着维数的增加而恶化的意义上,什么样的函数可以用这个特定的模型有效地逼近?我们针对三类机器学习模型解决这个问题:随机特征模型,两层神经网络和残差神经网络模型。在此过程中,我们还将总结深度学习理论基础的现状,并讨论一些关键的开放性问题。

鄂维南,中国科学院院士,北京大数据研究院院长、北京科学智能研究院(AI for Science Institute,Beijing)院长,北京大学国际机器学习研究中心主任,美国数学学会、美国工业与应用数学学会 Fellow。研究领域为应用数学。多次受邀在数学、应用数学、物理、化学、力学等领域的国际顶会上发表报告。2003 年获国际工业与应用数学协会 Collatz 奖。2009 年获美国工业与应用数学学会 Kleinman 奖。2014 年获美国工业与应用数学学会 Theodore von Karman 奖。2019 年获得美国工业与应用数学学会和 ETH 共同颁发的 Henrici奖。2020 年获 ACM Gordon Bell 奖。

本演讲回顾了基于神经网络的机器学习数学理论领域的现状。他工作的中心主题是对高维函数的理解。他一开始就说,“机器学习是解决一些标准的数学问题,但是在非常高的维度上”。在数学的这个背景下,人们可以认为监督学习是使用有限的训练集逼近目标函数。使用图像分类的例子,我们感兴趣的函数是将每个图像映射到其类别的函数。我们知道函数在有限样本上的值(标签),目标是找到函数的精确逼近。

再举一个例子,在数学术语中,无监督学习是一个使用有限样本逼近潜在概率分布的问题。无监督学习的一个典型问题是生成不存在的数据,比如生成假人脸。虽然概率分布还不清楚,但我们确实有有限的真实人脸样本。用这个有限的样本,我们可以近似未知的概率分布,并产生新的样本。在其他机器学习方法中,强化学习是关于求解相关马尔可夫决策过程的Bellman方程,而时间序列学习则是关于逼近动态系统。

多年来,计算数学家一直在解决这类问题。唯一的区别是维度。以CIFAR-10问题为例,我们感兴趣的函数是将每个图像映射到其类别的函数。每个图像是32 x 32像素,有三个颜色维度,所以这个问题的整体维度是3072。这给经典的近似理论带来了一个问题(人们通常会在网格上使用分段线性函数逼近一个函数),因为随着问题的维数增长,计算成本呈指数增长。这对于所有用多项式近似函数的经典算法都是正确的。神经网络可以更有效地解决这类问题。

在他的演讲中重点讨论了一些关于基于神经网络算法的不同方面的证明,包括监督学习中的错误,随机特征模型,两层网络的近似理论,基于梯度的训练,以及在无监督学习中近似概率分布

他总结说,虽然还有很多事情需要理解,但在高维近似理论和训练后期阶段的全局最小选择都有一个合理的视角。他强调,这项工作不仅仅是证明定理——还需要其他方法,比如仔细设计数值实验和渐近分析。

视频:

https://slideslive.com/embed/presentation/38988071?embed_parent_url=https%3A%2F%2Ficml.cc%2Fvirtual%2F2022%2Finvited-talk%2F18430&embed_container_origin=https%3A%2F%2Ficml.cc&embed_container_id=presentation-embed-38988071&auto_load=true&auto_play=false&zoom_ratio=&disable_fullscreen=false&locale=zh&vertical_enabled=true&vertical_enabled_on_mobile=false&allow_hidden_controls_when_paused=true&fit_to_viewport=true&user_uuid=a395fe83-98b9-47fa-b7ca-9e11cd956071

成为VIP会员查看完整内容
79

相关内容

鄂维南,中国科学院院士,普林斯顿大学教授,北京大数据研究院院长,中国科学技术大学大数据学院首任院长。2003年获国际工业与应用数学协会科拉兹 (Collatz) 奖。2009年获美国工业与应用数学学会克来曼 (Kleinman) 奖;2014年获美国工业与应用数学学会卡门 (Theodore von Karman) 奖;2019年荣获由SIAM和ETH Zürich联合授予的Peter Henrici奖;2020年获得ACM戈登·贝尔奖(ACM Gordon Bell Prize)。
【2022新书】优化与机器学习:统计物理方法,225页pdf
专知会员服务
85+阅读 · 2022年10月5日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
【简明书】数学,统计和机器学习的动手入门,57页pdf
专知会员服务
62+阅读 · 2022年3月3日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
104+阅读 · 2021年3月1日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
26+阅读 · 2018年8月19日
Arxiv
11+阅读 · 2018年5月21日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
【2022新书】优化与机器学习:统计物理方法,225页pdf
专知会员服务
85+阅读 · 2022年10月5日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
【简明书】数学,统计和机器学习的动手入门,57页pdf
专知会员服务
62+阅读 · 2022年3月3日
923页ppt!经典课《机器学习核方法》,附视频
专知会员服务
104+阅读 · 2021年3月1日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员