五、图自编码器

发布于 2022-03-21 20:50:01 字数 5641 浏览 1376 评论 0

Deep Learning on Graphs: A Survey

自编码器（AE）及其变体被广泛用于无监督学习 [74]，它适用于学习没有监督信息的图节点表示。在本节中，我们将首先介绍图自编码器，然后转向图变分自编码器和其他改进。表 4 总结了所调查的 GAE 的主要特征。

表 4：不同图自编码器（GAE）的比较

5.1 自编码器

图中的 AE 的用法源于稀疏自编码器（SAE）[75] ^3。基本思想是，通过将邻接矩阵或其辩题视为节点的原始特征，可以利用 AE 作为降维技术来学习低维节点表示。具体而言，SAE 采用以下 L2 重建损失：

其中 P 是转移矩阵，P^ 是重构矩阵，h[i] ∈ R^d 是节点v[i]的低维表示，F(·)是编码器，G(·)是解码器，d << N是维数，以及Θ是参数。编码器和解码器都是具有许多隐藏层的多层感知器。换句话说，SAE 试图将P[i, :]的信息压缩成低维向量h[i]并重建原始向量。 SAE 还增加了另一个稀疏正则化项。在获得低维表示h[i]之后，k-means [85] 被应用于节点聚类任务，据证明它在经验上优于非深度学习基线。然而，由于理论分析不正确，这种有效性背后的机制仍然无法解释。

结构化深度网络嵌入（SDNE）[76] 通过表明，方程式 35 中的 L2 重建损失实际上对应于二阶邻近度，填补了这个难题。即如果它们具有相似的邻域，则两个节点共享相似的嵌入表示，这在网络科学中进行了很好的研究，例如协同过滤或三角闭包[5]。由网络嵌入方法启发，表明一阶邻近也很重要 [86]，SDNE 通过添加另一个类似于拉普拉斯特征映射的项来修改目标函数[54]：

即，如果两个节点是直接连接的，则他们也需要共享类似的嵌入表示。作者还通过使用邻接矩阵并为零和非零元素分配不同的权重来修改 L2 重建损失：

其中如果A(i, j)= 0则b[ij] = 1，否则 bij = β > 1，β 是另一个超参数。 SDNE 的整体架构如图 7 所示。

图 7：SDNE 框架经许可转载自 [76]。使用深度自编码器保留节点的第一和第二级邻近度。

受另一系列工作的启发，当代工作 DNGR [77] 将方程式 35 的转移矩阵P，替换为具有随机游走概率的正向逐点互信息（PPMI）[58] 矩阵。通过这种方式，原始特征可以与图形的一些随机游走概率相关联 [87]。然而，构造输入矩阵可能需要O(N^2)时间复杂度，这不能扩展到大规模图。

GC-MC [78] 通过在 [36] 中使用 GCN 作为编码器，进一步采用了不同的自编码器方法：

解码器是一个简单的双线性函数：

其中 Θ[de] 是编码器的参数。以这种方式，节点特征可以自然地结合。对于没有节点特征的图，可以使用节点的单热编码。作者证明了 GC-MC 对二分图推荐问题的有效性。

DRNE [79] 不是重建邻接矩阵或其变化，而是提出了另一种修改，即通过使用 LSTM 聚合邻域信息来直接重建节点的低维向量。具体而言，DRNE 最小化了以下目标函数：

由于 LSTM 需要输入序列，因此作者建议根据度对节点的邻域进行排序。对于具有度较大的节点，也采用邻居的采样以防止内存过大。作者证明，这种方法可以保留常规等价性和节点的许多中心度量，如 PageRank [88]。

与先前将节点映射到低维向量的工作不同，Graph2Gauss（G2G）[80] 建议将每个节点编码为高斯分布h[i] = N (M[i, :], diag (Σ[i, :]))，来捕获节点的不确定性。具体来说，作者使用从节点属性到高斯分布的均值和方差的深度映射作为编码器：

其中 F[M](·) 和 F[Σ](·) 是需要学习的参数化函数。然后，他们使用成对约束来学习模型，而不是使用显式解码器函数：

其中d(i, j)是从节点v[i]到v[j]的最短距离，KL[q(·) || p(·)]是q(·)和p(·)之间的 KL 散度 [89]。换句话说，约束确保节点对之间的 KL 散度，具有与图距离相同的相对顺序。但是，因为公式 42 难以优化，基于能量的损失 [90] 被用作松弛：

其中D = {(i, j, j0)|d(i, j) < d(i, j0)}和Eij = KL(hj||hi)。它进一步提出了一种无偏差的抽样策略，以加速训练过程。

5.2 变分自编码器

与以前的自编码器相反，变分自编码器（VAE）是另一种深度学习方法，将降维与生成模型相结合 [91]。在 [81] 中首次将 VAE 引入到建模图数据中，其中解码器是一个简单的线性乘积：

其中h[i]假设遵循高斯后验分布q (h[i]|M, Σ) = N (h[i]|M[i, :], diag (Σ[i, :]))。对于均值和方差矩阵的编码器，作者采用 [36] 中的 GCN：

然后，可以通过最小化变分下界来学习模型参数 [91]：

但是，由于需要重建整图，因此时间复杂度为O(N^2)。

受 SDNE 和 G2G 的启发，DVNE [82] 通过将每个节点表示为高斯分布，为图数据提出了另一种 VAE。与先前采用 KL 散度作为测量的工作不同，DVNE 使用 Wasserstein 距离 [92] 来保持节点相似性的传递。与 SDNE 和 G2G
类似，DVNE 还再目标函数中保留的一阶和二阶邻近度：