张量卷积神经网络(Tensorial Convolutional Neural Networks, TCNNs)因其在减小模型参数或提高泛化能力方面的优势而受到广泛的研究。然而,甚至权重初始化方法也阻碍了tcnn的探索。具体来说,一般的初始化方法,如Xavier或Kaiming初始化,通常无法为TCNN生成合适的权值。同时,虽然有针对特定架构的特别方法(如张量环网),但它们不适用于具有其他张量分解方法的TCNN(如CP或Tucker分解)。为了解决这一问题,我们提出了一种通用的权值初始化范式,推广了Xavier和Kaiming方法,可广泛应用于任意的TCNN。具体来说,我们首先提出了再现变换,将TCNNs中的逆向过程转换为等效的卷积过程。然后,基于前向和后向过程中的卷积算子,构建统一的范式来控制TCNN中的特征和梯度方差。因此,我们可以推导出各种TCNN的扇入和扇出初始化。我们证明,我们的范式可以稳定TCNNs的训练,导致更快的收敛和更好的结果。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“TCNN” 就可以获取《【ICML2022】张量卷积神经网络的统一权值初始化范式》专知下载链接