谷歌重磅开源新技术：5行代码打造无限宽神经网络模型，帮助“打开ML黑匣子” - 专知

会员服务 ·

0

谷歌重磅开源新技术：5行代码打造无限宽神经网络模型，帮助“打开ML黑匣子”

2020 年 3 月 14 日 量子位

鱼羊假装发自凹非寺
量子位报道 | 公众号 QbitAI

只要网络足够宽，深度学习动态就能大大简化，并且更易于理解。

最近的许多研究结果表明，无限宽度的DNN会收敛成一类更为简单的模型，称为高斯过程（Gaussian processes）。

于是，复杂的现象可以被归结为简单的线性代数方程，以了解AI到底是怎样工作的。

所谓的无限宽度(infinite width)，指的是完全连接层中的隐藏单元数，或卷积层中的通道数量有无穷多。

但是，问题来了：推导有限网络的无限宽度限制需要大量的数学知识，并且必须针对不同研究的体系结构分别进行计算。对工程技术水平的要求也很高。

谷歌最新开源的 Neural Tangents，旨在解决这个问题，让研究人员能够轻松建立、训练无限宽神经网络。

甚至只需要5行代码，就能够打造一个无限宽神经网络模型。

这一研究成果已经中了ICLR 2020。戳进文末Colab链接，即可在线试玩。

开箱即用，5行代码打造无限宽神经网络模型

Neural Tangents 是一个高级神经网络 API，可用于指定复杂、分层的神经网络，在 CPU/GPU/TPU 上开箱即用。

该库用 JAX编写，既可以构建有限宽度神经网络，亦可轻松创建和训练无限宽度神经网络。

有什么用呢？举个例子，你需要训练一个完全连接神经网络。通常，神经网络是随机初始化的，然后采用梯度下降进行训练。

研究人员通过对一组神经网络中不同成员的预测取均值，来提升模型的性能。另外，每个成员预测中的方差可以用来估计不确定性。

如此一来，就需要大量的计算预算。

但当神经网络变得无限宽时，网络集合就可以用高斯过程来描述，其均值和方差可以在整个训练过程中进行计算。

而使用 Neural Tangents ，仅需5行代码，就能完成对无限宽网络集合的构造和训练。

from neural_tangents import predict, stax

init_fn, apply_fn, kernel_fn = stax.serial(
    stax.Dense(2048, W_std=1.5, b_std=0.05), stax.Erf(),
    stax.Dense(2048, W_std=1.5, b_std=0.05), stax.Erf(),
    stax.Dense(1, W_std=1.5, b_std=0.05))

y_mean, y_var = predict.gp_inference(kernel_fn, x_train, y_train, x_test, ‘ntk’, diag_reg=1e-4, compute_cov=True)

上图中，左图为训练过程中输出（f）随输入数据（x）的变化；右图为训练过程中的不确定性训练、测试损失。

将有限神经网络的集合训练和相同体系结构的无限宽度神经网络集合进行比较，研究人员发现，使用无限宽模型的精确推理，与使用梯度下降训练整体模型的结果之间，具有良好的一致性。

这说明了无限宽神经网络捕捉训练动态的能力。

不仅如此，常规神经网络可以解决的问题，Neural Tangents 构建的网络亦不在话下。

研究人员在 CIFAR-10 数据集的图像识别任务上比较了 3 种不同架构的无限宽神经网络。

可以看到，无限宽网络模拟有限神经网络，遵循相似的性能层次结构，其全连接网络的性能比卷积网络差，而卷积网络的性能又比宽残余网络差。

但是，与常规训练不同，这些模型的学习动力在封闭形式下是易于控制的，也就是说，可以用前所未有的视角去观察其行为。

对于深入理解机器学习机制来说，该研究也提供了一种新思路。谷歌表示，这将有助于“打开机器学习的黑匣子”。

传送门

论文地址：
https://arxiv.org/abs/1912.02803

谷歌博客：
https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html

GitHub地址：
https://github.com/google/neural-tangents

Colab地址：
https://colab.research.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

<NVIDIA图像处理公开课·第三期> 开始报名啦，3.26晚8点，英伟达专家将分享如何利用迁移式学习工具包加速Jetbot智能小车推理引擎部署。

戳二维码，备注“英伟达”即可报名、加交流群、获取前两期直播回放，主讲老师也会进群与大家交流互动哦~

免费报名 | 图像与视频处理系列直播课

学习计划 | 关注AI发展新动态

内参新升级！拓展优质人脉，获取最新AI资讯&论文教程，欢迎加入AI内参社群一起学习~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

1

相关内容

网络模型

【2020新书】如何认真写好的代码和软件，318页pdf

【2020新书】如何认真写好的代码和软件，318页pdf

专知会员服务

65+阅读 · 2020年3月26日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

100行Python代码，轻松搞定神经网络

100行Python代码，轻松搞定神经网络

大数据文摘

4+阅读 · 2019年5月2日

谷歌和OpenAI重磅解密神经网络“黑匣子”：AI图像分类原来就是一张激活地图！

谷歌和OpenAI重磅解密神经网络“黑匣子”：AI图像分类原来就是一张激活地图！

新智元

3+阅读 · 2019年3月9日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

无需深度学习框架，如何从零开始用Python构建神经网络

无需深度学习框架，如何从零开始用Python构建神经网络

机器之心

4+阅读 · 2018年5月26日

神经网络编程 - 前向传播和后向传播（附完整代码）

神经网络编程 - 前向传播和后向传播（附完整代码）

专知

5+阅读 · 2018年4月15日

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

VIP会员

相关主题

相关VIP内容

【2020新书】如何认真写好的代码和软件，318页pdf

【2020新书】如何认真写好的代码和软件，318页pdf

专知会员服务

65+阅读 · 2020年3月26日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

100行Python代码，轻松搞定神经网络

100行Python代码，轻松搞定神经网络

大数据文摘

4+阅读 · 2019年5月2日

谷歌和OpenAI重磅解密神经网络“黑匣子”：AI图像分类原来就是一张激活地图！

谷歌和OpenAI重磅解密神经网络“黑匣子”：AI图像分类原来就是一张激活地图！

新智元

3+阅读 · 2019年3月9日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

无需深度学习框架，如何从零开始用Python构建神经网络

无需深度学习框架，如何从零开始用Python构建神经网络

机器之心

4+阅读 · 2018年5月26日

神经网络编程 - 前向传播和后向传播（附完整代码）

神经网络编程 - 前向传播和后向传播（附完整代码）

专知

5+阅读 · 2018年4月15日

相关论文

Bivariate Beta LSTM

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

隐秘的头发

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员