The training process of neural networks usually optimize weights and bias parameters of linear transformations, while nonlinear activation functions are pre-specified and fixed. This work develops a systematic approach to constructing matrix activation functions whose entries are generalized from ReLU. The activation is based on matrix-vector multiplications using only scalar multiplications and comparisons. The proposed activation functions depend on parameters that are trained along with the weights and bias vectors. Neural networks based on this approach are simple and efficient and are shown to be robust in numerical experiments.


翻译:神经网络的培训过程通常优化线性变换的重量和偏差参数,而非线性激活功能则是预先指定和固定的。这项工作为构建矩阵激活功能制定了系统的方法,这些功能的条目从ReLU得到普遍化。激活基于矩阵-矢量乘法,仅使用尺度乘法和比较。拟议的激活功能取决于经过培训的参数以及重量和偏向矢量。基于这一方法的神经网络简单而有效,在数字实验中显示是稳健的。

0
下载
关闭预览

相关内容

在人工神经网络中,给定一个输入或一组输入,节点的激活函数定义该节点的输出。一个标准集成电路可以看作是一个由激活函数组成的数字网络,根据输入的不同,激活函数可以是开(1)或关(0)。这类似于神经网络中的线性感知器的行为。然而,只有非线性激活函数允许这样的网络只使用少量的节点来计算重要问题,并且这样的激活函数被称为非线性。
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Arxiv
7+阅读 · 2021年10月12日
Arxiv
4+阅读 · 2020年9月28日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Top
微信扫码咨询专知VIP会员