Sampling methods (e.g., node-wise, layer-wise, or subgraph) has become an indispensable strategy to speed up training large-scale Graph Neural Networks (GNNs). However, existing sampling methods are mostly based on the graph structural information and ignore the dynamicity of optimization, which leads to high variance in estimating the stochastic gradients. The high variance issue can be very pronounced in extremely large graphs, where it results in slow convergence and poor generalization. In this paper, we theoretically analyze the variance of sampling methods and show that, due to the composite structure of empirical risk, the variance of any sampling method can be decomposed into \textit{embedding approximation variance} in the forward stage and \textit{stochastic gradient variance} in the backward stage that necessities mitigating both types of variance to obtain faster convergence rate. We propose a decoupled variance reduction strategy that employs (approximate) gradient information to adaptively sample nodes with minimal variance, and explicitly reduces the variance introduced by embedding approximation. We show theoretically and empirically that the proposed method, even with smaller mini-batch sizes, enjoys a faster convergence rate and entails a better generalization compared to the existing methods.


翻译:抽样方法(例如,交点、分层或子集)已成为加速培训大型图形神经网络(GNNS)的不可或缺的战略,但是,现有的抽样方法大多以图表结构信息为基础,忽视了优化的动态性,从而导致在估计随机梯度时出现很大差异。高差异问题在极大图中非常明显,这导致趋同速度缓慢和概括化不力。在本文中,我们从理论上分析抽样方法的差异,并表明,由于经验风险的综合结构,任何抽样方法的差异都可以分解成前阶段的\textit{包含的近似差}和后阶段的\textit{随机梯度差异},这导致在估计分解两种差异以获得更快的趋同率方面差异很大。我们提出了一个分解差异减少战略,将(近似)梯度信息用于适应性采样节点,差异最小,并通过嵌入近似来明确减少差异。我们从理论上和实证上表明,拟议的方法可以在理论上和实证上形成更好的趋同率,即使微缩方法也比了较快的趋同。

0
下载
关闭预览

相关内容

【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
5+阅读 · 2017年10月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
13+阅读 · 2021年6月14日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
5+阅读 · 2017年10月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员