成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布
2022 年 2 月 22 日
机器之心
机器之心报道
编辑:张倩
这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。
深度学习的黑箱属性一直为人所诟病,很多研究者都在努力解决这一问题。其中,用信息论来提高深度神经网络的可解释性是一个非常有趣的方向。
在这个方向上,「信息瓶颈」提出者、希伯来大学计算机科学教授 Naftali Tishby 及其学生的论文属于必读文献。
2015 年,Tishby 和他的学生 Noga Zaslavsky 发表了一篇论文,假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。也就是说,神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。
2017 年,Tishby 和他的另一个学生 Ravid Shwartz-Ziv 联合进行了一场引入注目的实验,揭示了发生在深度学习之中的挤压过程,表明深度神经网络在压缩状态中提高泛化能力,从而更加擅长标记测试数据。这篇论文就是大名鼎鼎的《 Opening the black box of Deep Neural Networks via Information 》。深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件:「信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。」纽约大学心理学和数据科学助理教授 Brenden Lake 也认为,Tishby 的研究成果是「打开神经网络黑箱的重要一步」。
在这篇论文之后,Tishby 及其学生继续在深度学习 + 信息论的方向上深入研究。但不幸的是,
Tishby 于去年 8 月份离世
,剩下的问题只能交给后人来探索。
在 Tishby 去世的这年,Ravid Shwartz-Ziv 完成了他的博士论文 ——《 Information Flow in Deep Neural Networks 》。
这篇论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。
最近,Ravid Shwartz-Ziv 表示,他已经将该论文上传到了 arXiv。
论文链接:https://arxiv.org/pdf/2202.06749.pdf
以下是论文的大致内容。
Ravid Shwartz-Ziv 的博士论文
尽管深度神经网络已经取得了巨大的成功,但我们还没有一个全面的理论来解释这些网络如何工作或如何构造。深度网络通常被视为黑盒,我们无法清楚地解释它们的预测结果或可靠性。如今,了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们,我们需要了解它们的动态行为(dynamic behavior)以及它们学习新表示的能力。
在这篇博士论文中,作者应用了信息论中的原理和技术来解决上述问题,以提高我们的理论理解,并运用这一理解来设计更好的算法。
论文的主要成果和贡献可以分为三个部分,具体如下:
第二章和第三章介绍了作者针对深度学习模型提出的信息论方法
。
作为对深度学习系统的解释,作者提出使用信息瓶颈(IB)理论。这种分析网络的新范式揭示了它们的分层结构、泛化能力和学习动态。基于这一分析,作者发现深度网络优化了每一层关于输入和输出变量的互信息,导致每一层都要在压缩和预测之间做出权衡。作者对这些网络的分析和数值研究表明,随机梯度下降算法遵循 IB 权衡原则,分两个阶段工作:快速经验误差最小化阶段和慢速表示压缩阶段。这些阶段通过每层不同的信噪比(SNR)来区分。
此外,他们证明了 SGD 由于压缩阶段而达到了这个最优界限,并在表示压缩上导出了一个新的高斯界限,同时将其与压缩时间联系起来。他们的结果还表明,网络的层收敛到 IB 理论界限,导致编码器和解码器分布之间的自洽关系。
第四章讨论了将 IB 应用于深度神经网络时最困难的问题之一 —— 估计高维空间中的互信息
。
尽管互信息在数据科学中是一个重要的量,但它在计算方面一直很有挑战性。互信息的计算只适用于离散变量或已知概率分布的有限数量的问题。为了更好地估计信息论数量(information-theoretic quantities)并研究泛化信号,作者研究了几个框架,并利用了最近的理论研究成果,如神经正切核(NTK)框架。
在研究中,他们发现,对于无限宽的神经网络的无限集合,他们可以获得许多信息论数量及其边界的易处理的计算。许多量可以通过网络的核(kernel)以封闭形式的解来描述。通过分析这些内容,我们可以了解网络的重要信息论数量,以及压缩、泛化和样本大小之间的关系。
第五章介绍了一个新的信息论框架 —— 双重信息瓶颈(dualIB)
。
尽管 IB 框架有很多优点,但它也有几个缺点:IB 是完全非参数化的,并且只在概率空间上运行。此外,IB 公式不涉及预测未见模式的任务,并假定能够完全获取联合概率。因此,作者开发了 dualIB,它仅通过在失真函数中的项之间进行切换来解决 IB 的一些缺点。dualIB 可以解释数据的已知特征,并使用它们对未知的例子做出更好的预测。作者提供了 dualIB 自洽方程,该方程允许他们获得解析解。局部稳定性分析揭示了解的临界点的潜在结构,产生了最佳模式表示的完整分叉图。
他们发现了 dualIB 目标的几个有趣的性质。首先,当以参数化形式表达时,dualIB 保留其结构。它还优化了平均预测误差指数,从而提高了关于样本大小的预测精度。除了 dualIB 的解析解,他们还提供了一个变分 dualIB 框架,该框架使用深度神经网络来优化泛函。该框架实现了真实世界数据集的 dualIB 的实现。通过它,作者对其动态变化进行了实验评估,并验证了现代深度神经网络的理论预测。
总之,该论文提出了一个新的信息论视角来研究深度神经网络,它利用了深度学习和 IB 框架之间的对应关系。这一独特的视角可以提供许多好处,比如对深度神经网络有更深入的理解,解释它们的行为,并改善它们的性能。同时,他们的研究也开拓了新的理论和实践研究问题。
Ravid Shwartz-Ziv 简介
Ravid Shwartz-Ziv 是希伯来大学计算机科学与神经科学博士,读博期间专注于深度神经网络与信息论之间的联系,试图基于信息论对 DNN 进行更深入的理解,并将其应用于大规模的问题。2018 年,他拿到了谷歌博士生奖研金。
2021 年,Shwartz-Ziv 博士毕业并进入纽约大学数据科学中心担任 CDS Faculty Fellow,与 Andrew Gordon Wilson、Yann Lecun 等人一起研究贝叶斯深度网络、信息论和自监督学习。
Google Scholar 主页:https://scholar.google.co.il/citations?user=SqsLFwMAAAAJ&hl=en
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Naftali Tishby
关注
0
信息论揭开深度学习黑匣子?纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论
专知会员服务
96+阅读 · 2022年2月21日
【AAAI 2022】一致性信息瓶颈在域泛化中的应用
专知会员服务
25+阅读 · 2022年1月15日
NeurIPS 2021奖项出炉:微软谷歌等6 篇论文获得杰出论文奖,在线LDA获得时间检验奖
专知会员服务
27+阅读 · 2021年12月1日
深度学习为何泛化好?CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展
专知会员服务
82+阅读 · 2021年10月22日
【经典书】深度学习信息瓶颈理论,135页pdf
专知会员服务
97+阅读 · 2021年8月13日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
13+阅读 · 2020年8月25日
斯坦福陈丹琦博士论文:神经网络阅读理解与更多【附156页pdf】
专知会员服务
62+阅读 · 2019年10月27日
【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks,圣地亚哥大学|Xiaolong Wang,英伟达|Sifei Liu
专知会员服务
18+阅读 · 2019年6月16日
神经网络为何越大越好?这篇NeurIPS论文证明:鲁棒性是泛化的基础
新智元
2+阅读 · 2022年2月22日
信息论揭开深度学习黑匣子?纽约大学研究员Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论
专知
7+阅读 · 2022年2月21日
6篇杰出论文,普林斯顿获时间检验奖,NeurIPS 2021奖项出炉
极市平台
0+阅读 · 2021年12月1日
NeurIPS 2021奖项出炉:微软谷歌等6 篇论文获得杰出论文奖,在线LDA获得时间检验奖
专知
0+阅读 · 2021年12月1日
强化学习为何泛化如此困难?从认知POMDP、隐式部分可观察解读
PaperWeekly
2+阅读 · 2021年11月30日
为何RL泛化这么难:UC伯克利博士从认知POMDP、隐式部分可观察解读
机器之心
1+阅读 · 2021年11月29日
深度学习为何泛化的那么好?秘密或许隐藏在内核机中
THU数据派
1+阅读 · 2021年10月13日
Hinton获2021迪克森科学奖:他改变了AI,改变了世界
THU数据派
0+阅读 · 2021年9月17日
在理解通用近似定理之前,你可能都不会理解神经网络
机器之心
1+阅读 · 2021年9月7日
大神Geoffrey Hinton那篇备受关注的Capsule论文终于公开了
数据玩家
13+阅读 · 2017年10月28日
基于网络解卷积和贝叶斯模型的组学数据融合分析方法及应用研究
国家自然科学基金
1+阅读 · 2014年12月31日
生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究
国家自然科学基金
0+阅读 · 2014年12月31日
神经元和星形胶质细胞特异性miRNA对神经网络发育和功能的调控机制
国家自然科学基金
0+阅读 · 2013年12月31日
神经网络随机学习算法的泛化性研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于蛋白质组学方法的绿僵菌孢子热胁迫响应分子机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
拟南芥AMOS1基因介导的铵胁迫信号传导途径研究
国家自然科学基金
0+阅读 · 2012年12月31日
可学习的任意维细胞神经网络及其新应用研究
国家自然科学基金
0+阅读 · 2011年12月31日
嗅球外丛状层的中间神经元的发生发育及其基因调控
国家自然科学基金
0+阅读 · 2009年12月31日
神经网络子空间学习算法的收敛性与鲁棒性
国家自然科学基金
1+阅读 · 2009年12月31日
融合多种先验信息的多光谱自发荧光断层成像重建方法的研究
国家自然科学基金
0+阅读 · 2009年12月31日
Choosing the number of factors in factor analysis with incomplete data via a hierarchical Bayesian information criterion
Arxiv
0+阅读 · 2022年4月19日
String Diagram Rewrite Theory III: Confluence with and without Frobenius
Arxiv
0+阅读 · 2022年4月18日
On Secure NOMA-Aided Semi-Grant-Free Systems
Arxiv
0+阅读 · 2022年4月18日
Recurrent neural networks that generalize from examples and optimize by dreaming
Arxiv
0+阅读 · 2022年4月17日
Getting There and Back Again
Arxiv
0+阅读 · 2022年4月15日
Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks
Arxiv
0+阅读 · 2022年4月14日
A Survey of Uncertainty in Deep Neural Networks
Arxiv
30+阅读 · 2021年7月7日
A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization
Arxiv
17+阅读 · 2021年6月18日
Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future
Arxiv
36+阅读 · 2021年5月27日
Scaling Properties of Deep Residual Networks
Arxiv
13+阅读 · 2021年5月25日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Naftali Tishby
信息瓶颈
神经网络
深度神经网络
论文
深度学习
相关VIP内容
信息论揭开深度学习黑匣子?纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论
专知会员服务
96+阅读 · 2022年2月21日
【AAAI 2022】一致性信息瓶颈在域泛化中的应用
专知会员服务
25+阅读 · 2022年1月15日
NeurIPS 2021奖项出炉:微软谷歌等6 篇论文获得杰出论文奖,在线LDA获得时间检验奖
专知会员服务
27+阅读 · 2021年12月1日
深度学习为何泛化好?CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展
专知会员服务
82+阅读 · 2021年10月22日
【经典书】深度学习信息瓶颈理论,135页pdf
专知会员服务
97+阅读 · 2021年8月13日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
20+阅读 · 2021年1月27日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
13+阅读 · 2020年8月25日
斯坦福陈丹琦博士论文:神经网络阅读理解与更多【附156页pdf】
专知会员服务
62+阅读 · 2019年10月27日
【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks,圣地亚哥大学|Xiaolong Wang,英伟达|Sifei Liu
专知会员服务
18+阅读 · 2019年6月16日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
神经网络为何越大越好?这篇NeurIPS论文证明:鲁棒性是泛化的基础
新智元
2+阅读 · 2022年2月22日
信息论揭开深度学习黑匣子?纽约大学研究员Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论
专知
7+阅读 · 2022年2月21日
6篇杰出论文,普林斯顿获时间检验奖,NeurIPS 2021奖项出炉
极市平台
0+阅读 · 2021年12月1日
NeurIPS 2021奖项出炉:微软谷歌等6 篇论文获得杰出论文奖,在线LDA获得时间检验奖
专知
0+阅读 · 2021年12月1日
强化学习为何泛化如此困难?从认知POMDP、隐式部分可观察解读
PaperWeekly
2+阅读 · 2021年11月30日
为何RL泛化这么难:UC伯克利博士从认知POMDP、隐式部分可观察解读
机器之心
1+阅读 · 2021年11月29日
深度学习为何泛化的那么好?秘密或许隐藏在内核机中
THU数据派
1+阅读 · 2021年10月13日
Hinton获2021迪克森科学奖:他改变了AI,改变了世界
THU数据派
0+阅读 · 2021年9月17日
在理解通用近似定理之前,你可能都不会理解神经网络
机器之心
1+阅读 · 2021年9月7日
大神Geoffrey Hinton那篇备受关注的Capsule论文终于公开了
数据玩家
13+阅读 · 2017年10月28日
相关基金
基于网络解卷积和贝叶斯模型的组学数据融合分析方法及应用研究
国家自然科学基金
1+阅读 · 2014年12月31日
生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究
国家自然科学基金
0+阅读 · 2014年12月31日
神经元和星形胶质细胞特异性miRNA对神经网络发育和功能的调控机制
国家自然科学基金
0+阅读 · 2013年12月31日
神经网络随机学习算法的泛化性研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于蛋白质组学方法的绿僵菌孢子热胁迫响应分子机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
拟南芥AMOS1基因介导的铵胁迫信号传导途径研究
国家自然科学基金
0+阅读 · 2012年12月31日
可学习的任意维细胞神经网络及其新应用研究
国家自然科学基金
0+阅读 · 2011年12月31日
嗅球外丛状层的中间神经元的发生发育及其基因调控
国家自然科学基金
0+阅读 · 2009年12月31日
神经网络子空间学习算法的收敛性与鲁棒性
国家自然科学基金
1+阅读 · 2009年12月31日
融合多种先验信息的多光谱自发荧光断层成像重建方法的研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Choosing the number of factors in factor analysis with incomplete data via a hierarchical Bayesian information criterion
Arxiv
0+阅读 · 2022年4月19日
String Diagram Rewrite Theory III: Confluence with and without Frobenius
Arxiv
0+阅读 · 2022年4月18日
On Secure NOMA-Aided Semi-Grant-Free Systems
Arxiv
0+阅读 · 2022年4月18日
Recurrent neural networks that generalize from examples and optimize by dreaming
Arxiv
0+阅读 · 2022年4月17日
Getting There and Back Again
Arxiv
0+阅读 · 2022年4月15日
Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks
Arxiv
0+阅读 · 2022年4月14日
A Survey of Uncertainty in Deep Neural Networks
Arxiv
30+阅读 · 2021年7月7日
A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization
Arxiv
17+阅读 · 2021年6月18日
Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future
Arxiv
36+阅读 · 2021年5月27日
Scaling Properties of Deep Residual Networks
Arxiv
13+阅读 · 2021年5月25日
大家都在搜
自主可控
无人艇
大型语言模型
CMU博士论文
技术报告
palantir
洛克菲勒
卫勤
电子战
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top