Graph convolutional networks (GCNs) and their variants have achieved great success in dealing with graph-structured data. However, it is well known that deep GCNs suffer from the over-smoothing problem, where node representations tend to be indistinguishable as more layers are stacked up. The theoretical research to date on deep GCNs has focused primarily on expressive power rather than trainability, an optimization perspective. Compared to expressivity, trainability attempts to address a more fundamental question: given a sufficiently expressive space of models, can we successfully find a good solution by gradient descent-based optimizer? This work fills this gap by exploiting the Graph Neural Tangent Kernel (GNTK), which governs the optimization trajectory under gradient descent for wide GCNs. We formulate the asymptotic behaviors of GNTK in the large depth, which enables us to reveal the dropping trainability of wide and deep GCNs at an exponential rate in the optimization process. Additionally, we extend our theoretical framework to analyze residual connection-resemble techniques, which are found to be only able to mildly mitigate the exponential decay of trainability. To overcome the exponential decay problem more fundamentally, we propose Critical DropEdge, a connectivity-aware and graph-adaptive sampling method, inspired by our theoretical insights on trainability. Experimental evaluation consistently confirms using our proposed method can achieve better results compared to relevant counterparts with both infinite-width and finite-width.


翻译:然而,众所周知,深层GCN在处理图形结构化数据方面取得了巨大的成功。但众所周知,深层GCN在处理图形结构化数据方面取得了巨大的成功。 深层GCN在过度移动的问题中深受其害, 节点表示往往无法区分, 因为更多的层层堆积起来。 迄今为止对深层GCN的理论研究主要侧重于表达力而不是训练性, 优化观点。 与表达力相比, 可培训性尝试旨在解决一个更根本的问题: 鉴于模型具有足够清晰的空间, 我们能否通过梯度下潜优化来成功找到一个好的解决方案? 这项工作填补了这一差距, 利用了Neural Tangnel(GNTK)图, 该图说明了大层层层层下坡度下降的优化轨迹。 我们设计了深层GNTCN在深度上的无阻碍行为, 使我们能够以指数化速度显示广度和深层GCN的可训练性下降。 此外, 我们扩展了理论框架, 分析了基于梯度下降的连接技术, 发现只能从根本上降低我们指数化的方法。

2
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2020年10月18日
Arxiv
23+阅读 · 2018年10月1日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员