【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差 - 专知VIP

会员服务 ·

23

斯坦福大学 (Stanford University) · 马腾宇 · 自监督学习 ·

2022 年 11 月 8 日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

工智能正在经历范式转变，一些经过自监督预训练、然后适应广泛下游任务的模型正在兴起。然而，它们的工作原理在很大程度上仍然是个谜;经典的学习理论无法解释为什么对无监督任务的预训练可以帮助许多不同的下游任务。本次演讲将首先研究预训练损失在从未标记数据中提取有意义的结构信息方面的作用，特别是在无限数据状态下。具体来说，我将展示对比损失可能产生的嵌入，其欧氏距离捕获了原始数据之间的流形距离(或者更一般地说，所谓的正对图的图距离)。此外，嵌入空间中的方向对应于正对图中簇之间的关系。然后，我将讨论对实际预训练模型的行为进行清晰解释所必需的另外两个元素:体系结构的归纳偏差和优化器的隐式偏差。我将介绍两个最近正在进行的项目，其中我们(1)通过纳入体系结构的归纳偏差来加强之前的理论框架，(2)从经验和理论上证明优化器在预训练中的隐式偏差，即使使用无限的预训练数据。

马腾宇，2012届姚班校友，于普林斯顿大学获得博士学位，现为斯坦福大学计算机科学与统计学的助理教授。研究兴趣包括机器学习和深度学习，深度强化学习和高维统计。曾获得NIPS'16最佳学生论文奖，COLT'18最佳论文奖、ACM博士论文奖荣誉奖和2021斯隆研究奖。

成为VIP会员查看完整内容

39

相关内容

斯坦福大学 (Stanford University)

斯坦福大学 (Stanford University)

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

专知会员服务

98+阅读 · 2022年2月21日

MIT《图神经网络的任务结构与泛化》，22页ppt

MIT《图神经网络的任务结构与泛化》，22页ppt

专知会员服务

24+阅读 · 2021年2月28日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

专知会员服务

15+阅读 · 2020年7月3日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

专知

0+阅读 · 2022年11月8日

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

专知

1+阅读 · 2022年10月7日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

NeurIPS21 | 从图模型到GNN-机器学习中的消息传递机制，95页ppt

NeurIPS21 | 从图模型到GNN-机器学习中的消息传递机制，95页ppt

图与推荐

2+阅读 · 2021年12月8日

讲座报名 | CMU博士后带来自监督学习主题分享

讲座报名 | CMU博士后带来自监督学习主题分享

THU数据派

0+阅读 · 2021年8月30日

赛尔讲坛第15期｜加州大学圣地亚哥分校胡志挺助理教授讲座成功举办

赛尔讲坛第15期｜加州大学圣地亚哥分校胡志挺助理教授讲座成功举办

哈工大SCIR

2+阅读 · 2021年7月10日

论文荐读：理解图表示学习中的负采样

论文荐读：理解图表示学习中的负采样

学术头条

29+阅读 · 2020年5月29日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知

26+阅读 · 2019年1月1日

太阳风湍流在二维波矢空间分布特征的观测研究

国家自然科学基金

0+阅读 · 2015年12月31日

二维原子晶体黑磷的可控生长及其各向异性光、电性质研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性偏微分方程的非线性微分约束

国家自然科学基金

1+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

信念偏差效应的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

多重代价失衡的机器学习技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

硅基室温巨磁电阻的研究

国家自然科学基金

0+阅读 · 2011年12月31日

几何受限体系量子力学及其曲率效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

共掺ZnO中p型导电性形成机理及其共掺设计

国家自然科学基金

0+阅读 · 2009年12月31日

元激发的超快动力学与非线性光谱

国家自然科学基金

0+阅读 · 2009年12月31日

PCCC: The Pairwise-Confidence-Constraints-Clustering Algorithm

Arxiv

0+阅读 · 2022年12月29日

Eliminating Meta Optimization Through Self-Referential Meta Learning

Arxiv

0+阅读 · 2022年12月29日

GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning

Arxiv

0+阅读 · 2022年12月29日

Introduction to Multilevel Modeling Techniques

Arxiv

0+阅读 · 2022年12月27日

Self Meta Pseudo Labels: Meta Pseudo Labels Without The Teacher

Arxiv

0+阅读 · 2022年12月27日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Attention-based Ensemble for Deep Metric Learning

Arxiv

17+阅读 · 2018年4月2日

VIP会员

相关主题

斯坦福大学 (Stanford University)

自监督学习

相关VIP内容

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

专知会员服务

98+阅读 · 2022年2月21日

MIT《图神经网络的任务结构与泛化》，22页ppt

MIT《图神经网络的任务结构与泛化》，22页ppt

专知会员服务

24+阅读 · 2021年2月28日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

专知会员服务

15+阅读 · 2020年7月3日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

赋能真实世界：基于大语言模型的产业智能体技术、实践与评测综述

军事行动中人工智能系统目标交战的附带损伤评估模型 | 最新文献

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

美陆军协会（AUSA）2025 年会公布的美国十大武器与防务产品创新

相关资讯

【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

专知

0+阅读 · 2022年11月8日

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

专知

1+阅读 · 2022年10月7日

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

【CMU博士论文】多视图上下文理解的知识增强表示学习，179页pdf

专知

5+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

NeurIPS21 | 从图模型到GNN-机器学习中的消息传递机制，95页ppt

NeurIPS21 | 从图模型到GNN-机器学习中的消息传递机制，95页ppt

图与推荐

2+阅读 · 2021年12月8日

讲座报名 | CMU博士后带来自监督学习主题分享

讲座报名 | CMU博士后带来自监督学习主题分享

THU数据派

0+阅读 · 2021年8月30日

赛尔讲坛第15期｜加州大学圣地亚哥分校胡志挺助理教授讲座成功举办

赛尔讲坛第15期｜加州大学圣地亚哥分校胡志挺助理教授讲座成功举办

哈工大SCIR

2+阅读 · 2021年7月10日

论文荐读：理解图表示学习中的负采样

论文荐读：理解图表示学习中的负采样

学术头条

29+阅读 · 2020年5月29日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知

26+阅读 · 2019年1月1日

相关基金

太阳风湍流在二维波矢空间分布特征的观测研究

国家自然科学基金

0+阅读 · 2015年12月31日

二维原子晶体黑磷的可控生长及其各向异性光、电性质研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性偏微分方程的非线性微分约束

国家自然科学基金

1+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

信念偏差效应的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

多重代价失衡的机器学习技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

硅基室温巨磁电阻的研究

国家自然科学基金

0+阅读 · 2011年12月31日

几何受限体系量子力学及其曲率效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

共掺ZnO中p型导电性形成机理及其共掺设计

国家自然科学基金

0+阅读 · 2009年12月31日

元激发的超快动力学与非线性光谱

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

PCCC: The Pairwise-Confidence-Constraints-Clustering Algorithm

Arxiv

0+阅读 · 2022年12月29日

Eliminating Meta Optimization Through Self-Referential Meta Learning

Arxiv

0+阅读 · 2022年12月29日

GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning

Arxiv

0+阅读 · 2022年12月29日

Introduction to Multilevel Modeling Techniques

Arxiv

0+阅读 · 2022年12月27日

Self Meta Pseudo Labels: Meta Pseudo Labels Without The Teacher

Arxiv

0+阅读 · 2022年12月27日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Attention-based Ensemble for Deep Metric Learning

Arxiv

17+阅读 · 2018年4月2日

微信扫码咨询专知VIP会员