基于随机游走的网络嵌入方法有DeepWalk^[7]、Node2Vec^[9]等具有代表性的工作。DeepWalk的作者受到WordVec^[16]的启发，将其原理迁移到网络嵌入的学习中，从而提出了DeepWalk。在这里简单介绍经典的词向量表示模型Word2Vec^[16]。该模型的思想是用低维向量表征自然语言中的词，上下文词汇对应的低维向量的求和平均来表征对应上下文，而其对应的优化目标函数根据模型的输入输出不同，具有两种版本。一种版本是根据词汇对应的上下文词汇来预测中间词，这被叫做CBOW(ContinuousBag-of-Words)模型，其将上下文词汇看成词包，每个词包都有自己期望的中心词。还有一种版本则刚好相反，是利用中间词来预测该词对应的上下文词汇，这被称为Skip-Gram模型。如图2.1所示，CBOW模型的输入是目标词𝑤𝑡的上下文词向量(𝑤_𝑡−2,𝑤_𝑡−1,𝑤_𝑡+1,𝑤_𝑡+2)，输出时词库中所有词的可能概率，优化目标则是希望中间词𝑤_𝑡的概率尽可能大。Skip-Gram模型的输入输出则刚好与CBOW模型相反。由于词库往往非常庞大，导致预测带来的开销也很大，Word2Vec采用了分层softmax和负采样(negative sampling)两种方法分别来优化时间开销。负采样的思想比较简单，即将均匀采样得到的一部分负例来表示整体。而分层softmax则是先根据词库中词频大小建立一颗哈夫曼树(哈夫曼树指的是一种根据节点频率访问节点的路径和最短的最优二叉树，即高频节点离根节点的路径短，低频节点离根节点的路径长)，然后从根节点出发到目标叶子节点的路径堪称多个二分类问题，优化目标即是让路径上的每个分类问题的判断越准确越好。这样每次更新只需要计算目标词或者目标词的上下文对应的树路径上的概率，无需与词库中每个节点进行计算，大大减少了模型的计算量。

DeepWalk利用了社交网络中经典的随机游走(random walk)来产生节点序列，随机游走以均匀概率选取网络中的节点作为起始节点，从而按照邻居的权重概率产生节点序列。作者通过对节点序列集合进行节点频率统计，观测到序列中节点的频率分布与自然语言中词的频率分布很接近，均满足幂律分布。于是其将网络中的节点类比于词，将随机游走产生的节点序列类比于词的上下文，在方法上延续了Word2Vec的思想，用Skip-Gram模型对这些节点序列进行建模。而Node2Vec^[9]则改进了DeepWalk的随机游走策略，提出了更加一般化的方法。其定义了两个参数𝑝和𝑞，分别来刻画游走过程中的转移概率。参数𝑝用来刻画返回上一跳节点的概率，参数𝑞用来刻画探索远离上一跳节点的概率，其相当于深度优先搜索比上宽度优先搜索的比率，𝑞越大，则越可能采用深度优先探索。如图2.2所示，Node2Vec考虑了随机游走过程中偏向深度优先搜索(DFS)和广度优先搜索(BFS)的概率，在随机游走生成节点序列之后其仍然遵循了Word2Vec的思路，用Skip-Gram模型对生成的节点序列进行参数学习。

LINE^[8]不再依赖于随机游走生成的节点序列，其优化的目标函数为直接拟合节点在网络中的一阶相似性与二阶相似性这两个信息。一阶相似性指的是两个节点相邻的概率，假设其用节点 𝑣_𝑖和 𝑣_𝑗的联合概率分布 𝑝(𝑣_𝑖,𝑣_𝑗) 来表示，那么一阶相似性可以表示成节点的嵌入表示 𝑢_𝑖和 𝑢_𝑗的乘积的 sigmoid 函数。而二阶相似性指的是节点的邻居分布的相似性，假设节点 𝑣_𝑖 和 𝑣_𝑗 的二阶相似性可以用条件概率分布 𝑝(𝑣_𝑗|𝑣_𝑖) 来表示，那么二阶相似性可以表示成为节点嵌入 𝑢_𝑗在所有节点嵌入中与节点嵌入 𝑢_𝑖的相似程度。根据上述定义，LINE将一阶、二阶相似性用如下公式描述:

显然，LINE 的优化目标是让网络嵌入表示的相似性分布尽可能地与网络中的真实分布接近。一阶相似性对应的真实分布是网络中边权的真实分布，而二阶相似性对应的真实分布是节点的邻居分布。所以，LINE的损失函数可以设置成如下:

由于LINE只考虑了一阶和二阶网络结构，GraRep^[10]则把更高阶的网络结构也考虑进来，提出了能够适用于带权网络的更加一般化的嵌入表示方法。由理论证明Word2Vec的目标函数等价于词与其上下文的PPMI(正定逐点互信息)矩阵SVD分解^[17]的思想启发，GraRep从网络的转移概率矩阵𝐴出发，论证了DeepWalk的Skip-Gram模型作用在于捕捉节点与其上下文节点之间的𝑘阶关系，因而Skip-Gram模型的优化函数等价于对网络的1阶到k阶转移概率矩阵的SVD分解，而𝑘受限于DeepWalk上下文窗口的设定，学习到的嵌入也是混合了1阶到k阶的概率矩阵的信息，而LINE虽然能区分一阶和二阶的网络结构信息，但无法捕捉𝑘>2的高阶关系。GraRep在上述论证的基础上，对网络的𝑘阶转移概率矩阵𝐴^𝑘进行SVD分解，得到了网络的𝑘阶嵌入表示，这无疑丰富了网络的嵌入表示，其能衡量任意两个节点在𝑘阶上的网络关系。除此之外，GraRep还提到𝐴^𝑘随着𝑘的增大会逐渐收敛，所以只要取到合适的深度𝑘，GraRep把1阶到𝑘阶的网络嵌入拼接起来就能最大化涵盖网络的结构信息。值得一提的是，由于矩阵分解的时间复杂度较高，GraRep采用了随机梯度下降的方法来优化对𝑘阶转移概率矩阵的分解。

上述的嵌入方法主要的关注点在于对网络结构的信息建模，采用的方法都是浅层的神经网络，因而它们的表达能力比较有限。随着深度网络在自然语言、计算机视觉等领域取得显著的效果^[18-20]，SDNE^[21]、GCN^[11]等工作把更加复杂的神经网络结构引入到网络嵌入的研究中。如图2.3所示，SDNE是采用了深度自编码器(deepautoencoder)的结构，其分成无监督与有监督两部分，无监督部分主要是保留节点的二阶信息，其希望自编码器的嵌入表示能够重构网络节点的邻接信息，有监督部分主要是保留节点的一阶信息，其借鉴了拉普拉斯特征映射(LaplacianEigenmaps)的思想，即有连边的节点之间的嵌入表示需要更加接近。SDNE的训练则是把有监督和无监督这两个部分的损失函数按照一定比例结合起来优化，实验也证明其在许多任务上都取得了不错的效果。

GCN 把图的频谱变换引入到嵌入表示的分析中，其通过对网络邻接矩阵做拉普拉斯变换，运用切比雪夫多项式的一阶近似化简得到一种简单、高效的图卷积层，即

𝐻^(𝑙+1) = 𝜎(𝐴𝐻^(𝑙)𝑊 ^(𝑙))

其中，𝐴是图的邻接矩阵，𝐻(𝑙)是GCN中第𝑙层中节点的特征或者隐表示，𝑊则是GCN中第𝑙层中的参数。由上式所知，GCN相比于前面的工作，主要有两个优势，其一是网络的邻接矩阵直接作用在卷积操作上，得到一种基于图结构的卷积关联，具有非常高的通用性，对任意类型的图均能适用，而且图卷积层符合一般神经网络的前向网络设定，非常容易级联;其二是将节点自身的特征也引入到节点表示的学习中，而且网络结构信息与节点特征在图卷积层中天然属于并列的关系，无需设置超参数来协调两者关系。半监督的链路预测任务也充分验证了GCN模型的有效性。值得注意的是，直接把邻接矩阵传入图卷积层在大规模的图上是一件非常消耗内存与计算量的事，所以GCN的作者在实验中通过对𝐴进行SVD矩阵分解来得到低秩的矩阵分量，从而作为邻接矩阵的替代品进行图卷积层操作，公式如下所示:

虽然 GCN 在实验上做了许多优化，但存储矩阵以及矩阵运算都需要消耗大量的存储与计算资源，为了加速 GCN 的运算，GraphSAGE^[12] 从节点自我网络的视角，将 GCN 的图卷积层看作图中的节点对其邻居节点的信息的一种聚合，因此提出了更多样的聚合器(aggregator)，包括平均池化、最大池化、LSTM^[22]结构等。值得一提的是，由于需要对邻居进行聚合，随着网络层数的增加，需要记录的邻居数目呈指数级上升，对内存和时间的消耗很大，所以 GraphSAGE 采用了对邻居的均匀采样，控制了邻居的扩张数目，在大规模的网络上取得了不错的效果与性能表现。

[7] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. [S.l.]: ACM, 2014: 701-710.

[8] Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web. [S.l.]: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.

[9] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. [S.l.]: ACM, 2016: 855-864.

[10] Cao S, Lu W, Xu Q. Grarep: Learning graph representations with global structural information [C]//Proceedings of the 24th ACM international on conference on information and knowledge management. [S.l.]: ACM, 2015: 891-900.

[11] KipfTN,WellingM.Semi-supervisedclassificationwithgraphconvolutionalnetworks[J].arXiv preprint arXiv:1609.02907, 2016.

[12] HamiltonW,YingZ,LeskovecJ.Inductiverepresentationlearningonlargegraphs[C]//Advances in Neural Information Processing Systems. [S.l.: s.n.], 2017: 1024-1034.

[13] ZhuL,GuoD,YinJ,etal.Scalabletemporallatentspaceinferenceforlinkpredictionindynamic social networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(10):2765- 2777.

[14] Du L, Wang Y, Song G, et al. Dynamic network embedding: An extended approach for skip-gram based network embedding.[C]//IJCAI. [S.l.: s.n.], 2018: 2086-2092.

[15] Zhou L, Yang Y, Ren X, et al. Dynamic network embedding by modeling triadic closure process [C]//Thirty-Second AAAI Conference on Artificial Intelligence. [S.l.: s.n.], 2018.

[16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. [S.l.: s.n.], 2013: 3111-3119.

[17] Levy O, Goldberg Y. Neural word embedding as implicit matrix factorization[C]//Advances in neural information processing systems. [S.l.: s.n.], 2014: 2177-2185.

[18] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. [S.l.: s.n.], 2012: 1097-1105.

[19] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2016: 770-778.

[20] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv:1404.2188, 2014.

[21] Wang D, Cui P, Zhu W. Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. [S.l.]: ACM, 2016:1225-1234.

[22] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.

[关于转载]：本文为“AMiner”官网文章。转载本文请联系原作者获取授权，转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“AMiner”官网。谢谢您的合作。