‍‍

本文整理自林衍凯在「2021北京智源大会 · 青源学术年会」上的报告《考虑拓扑信息的图神经网络学习》。关注【智源社区】公众号后台回复【2021智源大会报告】获取《2021北京智源大会 · 观点报告》文集。视频回放，请扫描二维码：

或复制回放链接：https://2021.baai.ac.cn/schedule

【专栏：前沿进展】在本次演讲中，腾讯微信AI部门的林衍凯博士介绍了其团队在图神经网络学习任务中考虑图的拓扑信息的系列工作。

报告：林衍凯腾讯微信模式识别中心高级研究员撰文：熊宇轩

相较于结构化数据和流数据，图数据的数据点之间存在很强的拓扑联系。在拓扑结构中相连的点之间可能存在一定的共性，同时也存在一定的差异。

图 1：图数据的拓扑信息

那么，我们应该如何在图神经网络的学习中考虑图的拓扑联系，从而为图上的节点和边学习到更好的表征？我们将从三方面去介绍腾讯微信 AI 针对上述问题的相关工作：

（1）如今的图神经网络（尤其是多层图神经网络）经常会遇到过平滑问题。从拓扑角度看，为什么会出现过平滑问题，如何从拓扑信息入手缓解该问题？

（2）图对比学习是图神经网络研究领域十分流行的的自监督学习方法。我们是否可以在图对比学习过程中考虑图上的拓扑信息，从而获得更好的图对比学习效果？

（3）图数据具有一定的独特性。对于普通的数据而言，往往存在数据标签的类间数量不平衡问题。而对于图数据而言，标注数据在图上的分布还存在不对称、不均匀的特点，从而导致标注数据结构上的不平衡。我们需要研究这种图的拓扑不平衡学习问题。

01过平滑问题的拓扑分析

在 GCN 网络中，节点会与跟邻居节点进行交互，传播特征，其单层图神经网络中的卷积公式为：

而多层 GCN 网络在将每一层图卷积网络堆叠的过程中，本质上实现了图的拉普拉斯平滑，使同一连通分量中的节点表征会趋向于收敛到特征空间中同一个位置。如图 2 所示，在第 4、5 层的 GCN 图神经网络中，我们无法区分不同类的节点。

图 2：图神经网络的过平滑问题

如果同一个连通分量中的节点本身从属于同一类，这种平滑现象并不会对图上的分类任务造成影响；然而，如果同一个连通分量内的节点从属于不同类别，则最终会损害图上分类任务的性能。我们希望图上同一类的节点收敛到相同的值，而不同类节点的表征之间存在一定的可区分性。

图 3：图表示的平滑程度 MAD

为此，我们设计了一种指标——MAD（mean average distance），它通过计算学到的节点的最终表示和其它节点之间的表示之间的距离的平均值，衡量图表示的平滑程度。

图 4：MAD值随图神经网络层数的变化情况随着 GNN 网络层数的增多，图表示的平滑程度逐渐上升。当 GNN 层数过高时，平滑值 MAD 接近于0。这一结论在多个常见的图神经网络中成立。图表示的过平滑现象代表不同类之间的节点表示趋近一致。我们认为，之所以会发生过平滑现象，是因为随着 GNN 层数上升，节点的感受视野会增大。

图 5：图表示发生过平滑现象的原因

如图 5 所示，对于位于图中心的蓝色节点而言，当 GNN 层数为 1 时，感受野内的邻居节点都是同类的蓝色节点。随着 GNN 的层数上升，感受野内会增加两种异类节点，即噪声会越来越多。 那么，节点的信噪比是否与过平滑现象有关？

图 6：节点信噪比我们将节点的信噪比定义为与其所有的有交互的节点中，同类点的比例。实验结果表明，随着模型层数增大，节点的信噪比降低，GCN 的 Performance 会随之下降。GAT 这类引入注意力机制的模型会在一定程度上缓解上述问题。

图 7：拓扑结构与信噪比图的拓扑结构是影响节点信噪比的关键因素。对于图中的节点，如果连接的异类点多，图的信噪比就变得较低。
通常，我们认为拓扑距离较近的点，更有可能与当前节点从属于同一类；我们利用这一特性，提出了通过计算远端节点的 MAD 和近端节点的 MAD 的差值（MADGap）来定义整幅图的过平滑程度。

图 8：MADGAP 与模型效果的一致性在不同的图数据和图模型上展开的实验中，图的过平滑程度最终跟模型的效果具有高度的一致性。这证明了MADGap指标对于反映过平滑现象的有效性和通用性。基于上述观察，我们试图对图的拓扑结构进行一定的修正。

图 9：图拓扑修正实验

如图 9 所示，在理想条件下，假设已知图中边的标签，我们增加图中的一些同类边及或者删除图中的异类似边，该模型在上述两种情况下的性能都是上升的。这验证了图的拓扑结构影响节点信噪比，从而引起图过平滑现象的结论。

图 10：MADReg 与 AdaGraph 在非理想条件下，我们基于前文提出的 MAD 指标对GNN 的学习的过程进行正则化，降低图的平滑程度。

首先，我们提出了 MADGap 对图学习的损失进行正则化。

第二，我们根据 GNN 的学习结果增加同类边，删除潜在的异类边，这里使用的是self-learning的自举的思路。

图 11：MADReg 和 AdaGraph 的效果如图 11 所示，以上两种方式在六种常用 GNN 模型上可以有效缓解图模型的过平滑问题，并提升模型性能。

02 考虑拓扑的图对比学习

目前，最经典的图对比学习方法是基于图扰动的对比学习。例如，我们可以对图上的节点、边等图属性进行扰动，或者通过子图划分做扰动。通过对比扰动前后的图，我们可以自监督地学习到各个节点或边的表示。

图 12：图对比学习

我们发现，图的拓扑信息对于图对比学习的效果有较大的影响。在 NLP 预训练过程中，在低资源数据集上加入预训练会带来更大的效果提升。对于图学习而言，图对比学习能够有效地帮助收到监督信号较小的节点学到更好的表征，其信息增益更大。为了衡量图上的节点收到的标签信息量。我们对 PageRank 算法进行了扩展，将其扩展到每个类上，提出了 Group PageRank 方法，计算节点获取到的每一种标签的监督信号的强弱。

我们最终从两个方面定义每个节点获取到的各类别的信息量：

（1）获取的监督信号的强弱。

（2）获取到监督信号的清晰度。通常而言，收到的信息强度越高、清晰度越高，基于图结构本身的学习效果越好。

图 13：拓扑类别信息对图对比学习的影响如图 13 所示，对于图上节点，其接收的图上监督信号强度和清晰度越强，则图模型本身对这些节点的表示学习越好；而对于监督信号强度和清晰度比较差的子图，图模型本身难以很好地建模这些节点，而图对比学习对于这些点的表征的修正效果较强。

总结来说，图对比学习主要加强了图上拓扑信息增益不足的子图部分的节点的表示学习。传统的图对比学习方法往往忽略了上述观察结果，这些方法仅仅依赖于自身节点或上下文信息，从而得到正例和负例。它们并没有在图对比学习中区分不同的节点对于补充信息（这里是对比学习）的需求程度。

对于拓扑信号强度和清晰度更低的节点，我们应该增强对比学习的介入程度。而对于那些本身表征就学得很好的节点，使用图对比学习则收效甚微，甚至会引入一些噪声。此时，我们应该降低对这些点使用图对比学习的强度。

图 14：考虑拓扑的图对比学习针对上述问题，我们提出考虑拓扑信息的图对比学习。

首先，我们对图对比学习损失进行了调整，基于节点接收的拓扑信息强度和清晰度，将每个节点的图对比学习损失函数权重进行差异化调整。

第二，对于拓扑信息增益较小的节点，我们增大对于其所在子图的扰动程度，期望其能够从对比学习中学到更多的信息。

第三，我们在图对比学习中调整采样策略，使正例更加相似，而负例则是介于特别难和简单难度中间的比较难的、更有信息含量的点。此时我们考虑三种信息：Group PageRank 相似度、距离跳数、输入特征的相似度。

图 15：考虑拓扑的图对比学习损失我们将改进后的TIFA-GCL（topology information gain—aware graph contrastive learning，拓扑信息增益感知的图对比学习）框架应用于CORA等5个常用的图数据集上，结果相比于常见图神经网络以及已有的图对比学习框架均取得了普遍而明显的提升。

图 16：实验结果从图18中可知，TIFA-GCL也能够在推导式半监督学习中提升图节点表示学习的性能。而通过进一步引用改进的子图采样策略SAINT-TIFA，模型的效果也取得了进一步的提升。

03 图的拓扑不平衡学习

在传统机器学习场景下，不平衡学习关注的是带标签节点的样例数不平衡的情况。

图 17：图不平衡学习

如图17（左）所示，对于三分类分界面而言，位于黄色区域的带标签数据非常多，像紫色和蓝色区域中的带标签数据则非常少，存在明显的类边界漂移现象，类边界会从多数类向少数类偏移，从而产生严重的过拟合问题。

在传统的不平衡学习研究中，人们采用重加权或者调整损失函数等方式解决数据不平衡的问题。

图 18：图不平衡学习对于图数据而言，我们在训练数据中对图做均匀采样的时候，会根据训练数据实际数据中的分布采样，此时同样会出现从多数类向少数类漂移的现象。

但是我们发现，简单地对图数据进行训练样本平衡，仍然无法消除类漂移现象，类边界反而会向原本的多数类漂移了。

上述现象是由于因为我们采样到的带标签节点在图分布上不太均衡造成的。有一些点分布在整个类的拓扑中心，而有些点分布在拓扑的类的分界面上。越靠近拓扑类的分界面的节点，越容易引起分类边界的漂移。

图 19：拓扑不平衡从标签传播的角度来看，给定了一些带标签节点，在标签传播过程中，我们分析类在每一个传播到标注节点上的影响力。

实验结果表明，越靠近拓扑类的分界面的节点，越容易受到不同类标签的影响从而产生错误预测。在给定训练数据的情况下，我们通过影响力的冲突检测衡量拓扑的不平衡程度。

首先，在标签传播过程中，我们发现图上拓扑不平衡的程度更高的节点的冲突也会更高。如图20 所示，远离类边界的节点的拓扑影响力冲突程度较低，靠近类边界的点的影响力冲突程度较高。

图 20：影响力冲突检测

通过综合考虑图上所有带标签节点的影响力冲突程度，可以测算出训练数据的整体拓扑不平衡程度。我们按照拓扑不平衡的程度划分数据集，会发现模型在拓扑不平衡程度更高的数据划分中的性能较低。

我们试图对这种图上特殊的拓扑不平衡情况进行针对性的学习，根据拓扑不平衡的程度对节点进行重采样。如图 21 所示，点R_1 的冲突程度比较高，点R_2 跟点 B 的冲突程度比较小。

图 21：ReNode 算法

根据计算得到的权重规划，我们增大冲突较小的节点的采样频率，减小冲突较大的节点的采样频率。

我们首先计算采样权重值，然后根据拓扑不平衡程度在训练的过程中对带标签节点重新加权。

这样靠近拓扑类别边界的标注节点的影响力会降低，从而减少不同类别间的影响力冲突；而靠近拓扑类别中心的标注节点的影响力会提升，从而使得其对于同类节点有着更强的作用。

ReNode方法的整体作用是减少图中的拓扑不均衡程度，进而提高模型训练效果。

图 22：类数量平衡下的实验实验结果表明，在进行基于拓扑不平衡程度的重加权之后，模型性能在 6 种不同的 GNN 模型和五个数据集上都取得了一致的提高。

图 23：与经典类数量不平衡学习算法结合通常情况下，图学习任务中也存在类数量不平衡的现象。

我们将图的拓扑不平衡学习策略与普通的重加权策略相结合，只需要在交叉熵损失前乘一个系数，还可以考虑引入 Focal loss 等其他的方法。
实验结果表明，在对类别数量不平衡进行调整后，继续调整类别拓扑的不平衡性，可以进一步提升模型性能。

04 图评价体系的新视角

对图网络学习而言，在随机采样时，初始的带标签节点的拓扑不平衡性对于模型最终性能的影响非常大。

一方面，这是由于图网络学习任务中的带标签节点往往特别少。此外，在采样的过程中，使用不同的随机种子时，会采样得到拓扑不平衡差异性非常大的初始节点，这会给模型性能带来较大的波动。

图 24：图评价体系的新视角

通过考虑图的拓扑不平衡性，我们提出了采样具有不同拓扑不平衡程度的数据划分来构建对图的评价体系的新视角，以此来衡量模型在处理拓扑不平衡性上的差异；从图24中可以看出GAT相比于GCN对拓扑不均衡程度敏感性较低。

未来，我们还可以将上述工作扩展到异质图、不连通图，以及其它的图任务中。