所有文章 > 正文

浅谈网络表示学习

作者: 张杰

时间: 2019-05-29 14:05

网络表征学习(又叫做图嵌入学习)作为解决数据关系异构性的有效方法成为了近年来很重要的研 究问题,并且已经在网络边预测、网络节点分析、网络可视化、自然语言处理等 方面广泛应用。

网络表征学习(又叫做图嵌入学习)作为解决数据关系异构性的有效方法成为了近年来很重要的研究问题,并且已经在网络边预测、网络节点分析、网络可视化、自然语言处理等方面广泛应用。

1. 浅层网络表示学习

网络表征学习的目标是将图结构嵌入投影到低维的连续空间,同时保留图结构的内在结构属性。它的历史最早可以追溯到图的谱聚类方法 (spectral clustering) 和社交网络的维度学习 (social dimension learning)[3]。最近流行的图嵌入 表示学习很大程度上是由 skip-gram 在自然语言和网络挖掘中的应用引发的。 在图嵌入表示学习的发展过程中,主流的图嵌入表示方法专注于显式或者隐式地 对图结点之间的分布相似度进行建模。

受 skip-gram 模型的思想的启发,一系列基于 skip-gram 的嵌入表示模型用于将 图结构编码成连续的空间中的向量表示, 比如 DeepWalk, LINE, 和 node2vec。DeepWalk 可以认为是这一系列基于 skip-gram 的图嵌入表示工作中的开山之作。DeepWalk 收到自然语言中词频的统计规律和图的结点的 power law 分布规律之间相似的现象的启发,将图结点类比为词,通过从每个图结点开始随机游走生成结点序列来模拟句子,这一系列结点序列组成了“语料库”。DeepWalk 设定了 背景窗口的大小,然后将随机游走得到的“语料库”输入进 skip-gram 模型,便得 到了每个图结点的图嵌入表示。

LINE 相当于窗口大小设置为 1 的 DeepWalk。相比于 DeepWalk, 由 于 LINE 更小的“语料库”和使用 C++ 实现,它可以认为是目前为止最快的图嵌 入表示模型之一。

node2vec 则是是 DeepWalk 另一个角度上的变体,在 DeepWalk 的“语料库” 的生成步骤上,node2vec 额外使用了两个参数来控制随机游走的去向,使得随机游走的行为更倾向于深度优先搜索,以此探索图结构中偏向于全局结构的相似性; 或者使得随机游走的行为更类似于广度优先搜索,以此探索分布假设为基础的局域的相似性。一般而言,运行 node2vec 需要在验证集上对两个参数做探索,而且随机游走时涉及的随机采样比均匀分布稍复杂,node2vec 比 DeepWalk 慢得多。

最近, 受到自然语言处理中 skip-gram 相当于隐式的矩阵分解的研究[39] 的启 发, 一项研究表明基于 skip-gram 的网络表示学习也可以证明为隐式的矩阵分解,该工作同时提出了显示的网络表示学习的矩阵分解算法,NetMF。然而,以 NetMF 模型为代表的方法中涉及到的要分解的矩阵是稠密的,所以构建和分解矩阵的复 杂度是 O(|V|^3), 而我们这个工作将图嵌入表示的问题转化为了稀疏矩阵的分解和 乘积,所以只涉及到O(|E|)的复杂度。

其他还有一些基于矩阵分解的网络表示学习研究,相关的模型包括 GraRep和 HOPE。另 外,基于谱的图嵌入方法也是一类矩阵分解方法,它们和谱降维方法有关,比如 Isomap, Laplacian Eigenmaps和 spectral clustering。这些基于矩阵分解的方法一般具有极高的时间复杂度和空间复杂度,所以需要大量的计算时间和空间存储的开销。

GraRep 中,要分解的相似矩阵的推导基本也源于 skip-gram 的矩阵理解。但 是 GraRep 体现了不同阶的相似性,最后将各阶求得的图嵌入表示向量拼接起来使 用,但这无疑也带来了集成算法的增益。为了公平比较,GraRep 和其他模型的比 较时,可以选择维数相同。

HOPE 则是另一种一种矩阵分解为基础的图嵌入方法,它要分解的相似矩阵是 Katz 矩阵,这隐式地考虑了无穷阶的相似性。模型中涉及的分解方法是广义 SVD, 这依赖于相似矩阵必须具有某种特殊形式,所以一般不是一种适用性广泛的方法。

2. 图卷积网络

随着深度学习的发展,学术界对将神经网络扩展到图结构数据的兴趣越来越浓厚。图神经网络 (Graph Neural Networks (GNNs)) 便是以一种递归神经网络的形式被引入。在图神经网络中,结点的属性特征被不断递归地传播直到收敛为 止。GG-NNs在图神经网络中应用了 gated recurrent units 和现代的优化方法来 避免了优化时收敛到平衡态的要求。

和一般的图神经网络不同,图结构上的卷积神经网络在图的拉普拉斯谱空间或者直接在图结点的邻居上定义了具有空间局域性质的卷积过滤 器,从而更有效地捕捉图数据的内在拓扑结构。在这些图卷积方法中,图卷积网 络(graph convolutional networks (GCNs))引起了极大的关注和期望,并已经被 广泛地应用于半监督的图结点分类[9], 图链接预测和知识图谱,而且获得了很好的表现效果。

GCN 中在图的谱空间中定义了卷积操作,并通过深度学习中梯度后传的方式 来学习参数化的滤波器。GCN 对卷积核做了一阶的近似,并假设层叠地方式可以让原来的卷积操作被还原。而正是这种近似,让 GCN 在图空间中递归地进行着邻居(隐层)表示的聚合,类似于神经消息传播 (neural message passing) 的方式。因为层叠递归的邻居聚合步骤,结点的信息可以帮助远处的结点的分类,而且受益于图结点的相互依赖关系,半监督学习只需要很少量的标签即可高精度地完成。

在许多表达能力很强的 GCN 变体版本中,一个隐含的共同点是让模型有足够的能力去刻画复杂的图结点之间的依赖关系。MoNet使用了参数化的核来表示图结点之间的关系使用, 在模型的训练过程中这些参数是可学习的。DPFCNN[45] 更进一步扩展了 MoNet, 在图空间和对偶图空间中同时刻画图结点的关系。在图注意力网络(graph attention network(GAT)) 中,多头的自注意力机制被应用在边上。这些方法在基准的半监督任务上都取得了很好的效果。

而另一方面,也有一系列的基于采样的 GCN 变体被提出。GraphSAGE使用了采样固定数量的邻居的办法来让 GCN 在图上应用时避免了层数的增加带来的相关结点数量的爆炸增长,而且 GraphSAGE 算法天然地适用于测试集的结点不出现在训练集的情况,可以增量地训练。FastGCN利用了重要性采样(importance sampling)来提高采样的效率,并让模型可以收敛到 GCN。另外,还有许多工作在采样方法中兼顾了降低方差 (variance reduction)。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

推荐阅读 更多