数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
二十七、MNE [2018]
network embedding
(也称作graph embedding
)使用稠密向量来表达节点,并且已被很好地研究了多年。最近,受循环神经网络RNN
的启发,人们基于图上的随机游走和随机梯度下降优化从而对network embedding
进行了重新研究和开发,并可以应用于非常大的图。节点的embedding
向量可用于编码网络的一些拓扑结构,然后可以作为下游模型的特征。network embedding
已被证明有助于网络分析任务,包括链接预测、节点分类、社区检测。有些网络呈现多重性
multiplexity
的特点,尤其是对于社交网络。在社交网络分析中,多重性是指两个人之间的多方面关系。如果我们把这个思想推广到各种网络,多重网络multiplex network
是指网络中包含多种类型的关系,其中每一种关系都可以构成网络的一个子网(也称作一层layer
或子图)。以社交网络为例。在Facebook
等社交网络中,用户之间存在不同类型的交互,如好友关系、转发文章关系、聊天关系、转账关系。每种关系都将在所有用户之间创建一个子网。如果我们将所有关系视为一个统一的整体,那么我们将得到一个巨大的多重网络。虽然网络的每个子网仅能代表用户之间的一种交互,但是为了更好地理解多重网络整体,最好把来自这些子网的不同类型的信息集成在一起,而不牺牲各种类型信息的特有属性。考虑到网络可能很大的事实,在论文
《Scalable Multiplex Network Embedding》
中,作者提出了一种可扩展的多重网络embedding
模型,从而有效地将多类型关系multi-type relation
的信息存储和学习到统一的embedding
空间中。- 对于每个节点,论文提出一个高维的
common embedding
向量,该向量在多重网络的所有子网中共享。论文通过common embedding
向量在网络的不同子网之间建立桥梁。 - 对于每个节点,为了在不同子网上以较低内存需求的方式学习各子网的独有属性,论文还为每种类型的关系提出了一个低维的
additional embedding
。
论文的贡献仅仅是这一个点,总体而言没有什么大的创新点,不够深入,一篇“水文”。
为了将这些不同维度(有高维的、有低维的)的
embedding
对齐,论文为网络的每个子网引入了一个全局变换矩阵global transformation matrix
。遵从DeepWalk
,论文使用随机梯度下降来优化所提出的模型。由于全局变换矩阵的更新次数要比节点向量的更新次数多得多,因此论文添加了一个额外的正则化项来约束全局变换矩阵的范数。总而言之,本文贡献如下:
- 论文正式定义了多重网络
embedding
问题,以及处理网络的多重属性multiplexity property
。 - 论文提出了一种可扩展的多重网络
embedding
模型,该模型将来自多类型关系multi-type relation
的信息表达到统一的embedding
空间中。 - 论文在链接预测、节点分类这两个网络分析任务上评估了所提出的
embedding
算法。和当前的state-of-the-art
模型相比,所提出的模型实现了更好或相当的性能,并且内存占用更少。
- 对于每个节点,论文提出一个高维的
相关工作:
多重网络分析:传统上,在社会科学中,多重性
multiplexity
被用于描述用户之间社交关系的多个方面。多重性的思想可以推广到各种网络。在数据挖掘社区中,人们有时也使用 “多关系网络”multi-relational network
这个术语来表达社交网络中的多类型关系multi-type relation
,并验证在社交网络中考虑多类型关系可以帮助进行社区挖掘或链接预测等数据挖掘任务。此外,在生物信息学社区中,人们已经表明通过集成多个网络,可以改善node representation
从而帮助基因功能分析。如今,多重网络上的图挖掘方法主要针对特定任务。对于链接预测,可以将传统方法应用于多重网络,而无需考虑边的类型信息。对于社区检测,
《A degree centrality in multi-layered social network》
提出了跨子网的中心度centrality
度量从而捕获多重网络中节点的中心度。除此之外,人们还提出了多子网局部聚类系数multilayered local clustering coefficient: MLCC
和跨子网聚类系数cross-layer clustering coefficient: CLCC
来描述多重网络中节点的聚类系数。在本文中,我们从
network embedding
的角度提出了多重网络分析的通用解决方案。network embedding
:network embedding
(也称作graph embedding
)已被很好地研究了很多年。network embedding
也与流形学习manifold learning
有关,而流形学习通常应用于高维数据的降维。network embedding
侧重于为真实网络生成节点的向量representation
,从而促进对网络的进一步分析。传统的network embedding
方法通常涉及耗时的计算,例如用于分析图的谱属性spectral property
的特征值分解eigenvalue decomposition
。然而,由于真实世界的网络规模可能很大,这类方法算法复杂度太高从而不可行。最近,受到循环神经网络
RNN
发展的启发,尤其是高效的word embedding
方法,人们已经提出了许多network embedding
方法来处理大型社交网络。例如,DeepWalk
提出在网络上执行随机游走从而生成节点序列,然后对这些序列执行SkipGram
算法从而生成节点embedding
。在DeepWalk
之上,Node2Vec
增加了两个超参数来控制随机游走过程从而实现有偏biased
的随机游走。其它的一些embedding
模型专注于网络中特定类型的结构。例如,LINE
尝试使用embedding
来逼近网络的一阶邻近性和二阶邻近性。上述所有模型都已被证明对单一网络
single network
的分析有用,但它们都没有考虑多重性。最近,《Principled multilayer network embedding》
提出了三种方法来从多重网络中学习一个整体embedding
。与该方法不同,我们提出一个高维的common embedding
、以及每种类型的关系一个低维的additional embedding
。最近的一项工作《Multi-layered network embedding》
本质上是一个异质的信息网络,因为在该论文中,不同的子网有不同类型的节点。
27.1 模型
给定多重网络
multiplex network
$ \mathcal G=(\mathcal V, \mathcal E) $ ,其中 $ \mathcal V=\{v_1,v_2,\cdots,v_n\} $ 。假设网络有 $ M $ 种不同的关系类型,对应的边集合为 $ \mathcal E_1,\mathcal E_2,\cdots,\mathcal E_M $ ,其中 $ \mathcal E_m\sub \mathcal E,\quad \bigcup_{m=1}^M \mathcal E_m = \mathcal E $ 。定义类型为 $ m $ 的子网为 $ \mathcal G_m(\mathcal V,\mathcal E_m) $ 。对于每个节点
$ v_i\in \mathcal V $ ,我们有一个common embedding
向量 $ \mathbf{\vec b}_i\in \mathbb R^d $ ,它在所有关系类型之间共享。我们使用common embedding
向量作为跨不同关系类型传输信息的桥梁。为捕获不同关系类型的特点,对于每个节点我们在每个子网
$ \mathcal G_m $ 上还有一个additional embedding
向量 $ \mathbf{\vec u}_i^{(m)} \in \mathbb R^s $ 。为了防止模型整体太大,我们选择 $ s\ll d\ll n $ 。为了将
additional embedding
空间映射到common embedding
空间,我们引入变换矩阵 $ \mathbf X^{(m)}\in \mathbb R^{s\times d} $ 。最终我们定义节点 $ v_i $ 在子网 $ \mathcal G_m $ 下的embedding
向量为:其中
$ w^{(m)} $ 为超参数,表示关系类型 $ m $ 的全局重要性。这里变换矩阵是节点无关的,它在所有节点
$ \mathcal V $ 上共享。 超参数 $ w^{(m)} $ 也可以通过模型从数据中学到。对于多重网络
$ \mathcal G $ 中的关系类型 $ m $ ,我们对 $ \mathcal G_m $ 进行随机游走从而生成节点序列,然后对这些节点序列执行SkipGram
算法学习node embedding
。对于
$ \mathcal G_m $ 中的随机游走序列,假设节点 $ v_i $ 在大小为 $ c $ 的上下文窗口中的邻居节点集合为 $ \mathcal N^{(m)}_{v_i} $ ,则SkipGram
的目标函数为:我们定义
$ p^{(m)}(\cdot\mid \cdot) $ 为:其中:
$ \mathbf{\vec v}_i^{(m)} $ 为节点 $ v_i $ 在 $ \mathcal G_m $ 下的embedding
。 $ \mathbf{\vec c}_j\in \mathbb R^d $ 为节点 $ v_j $ 的context embedding
,它在所有子网中共享。不仅
common embedding
向量 $ \mathbf{\vec b}_i $ 是跨不同关系类型传输信息的桥梁,context embedding
$ \mathbf{\vec c}_j $ 也是跨不同关系类型传输信息的桥梁,因为它们都是跨子网共享的。此外,假设两个节点在不同子网中共享相同的邻域节点,那么这两个节点之间是相似的,即使它们位于不同的子网。这确保了相似性的跨子网的一致性。
为加速训练,我们采用负采样技术:
其中:
$ K $ 为负采样比例, $ Q_n^{(m)}(v) $ 为子网 $ \mathcal G_m $ 的负采样分布, $ \sigma(\cdot) $ 为logistic
函数。我们根据随机梯度下降
SGD
来优化该目标函数。我们初始化所有的 $ \mathbf{\vec b}_i,\mathbf{\vec u}_i^{(m)} $ 为零向量, $ \mathbf X^{(m)} $ 为零矩阵,但是我们随机初始化上下文向量 $ \mathbf{\vec c}_j $ 。由于子网
$ \mathcal G_m $ 中,每一个节点都会更新参数 $ \mathbf X^{(m)} $ ,因此 $ \mathbf X^{(m)} $ 被更新的次数非常多。为防止 $ \mathbf X^{(m)} $ 的范数太大,我们添加约束: $ \left\|\mathbf X^{(m)} \right\| \le r $ ,其中 $ r $ 为超参数。MNE
算法:输入:
- 多重网络
$ \mathcal G=(\mathcal V,\mathcal E) $ ,其中包含 $ M $ 种不同的关系类型 $ \mathcal E_1,\mathcal E_2,\cdots,\mathcal E_M $ common embedding
维度 $ d $additional embedding
维度 $ s $- 学习率
$ \eta $ - 随机游走序列长度
$ l $ - 从每个顶点开始的随机游走序列数量
$ n_{walk} $ - 上下文窗口大小
$ c $ - 负采样比例
$ K $ - 转换矩阵的正则化参数
$ r $ - 关系类型的全局重要性
$ \left\{w^{(m)}\right\}_{m=1}^M $
- 多重网络
输出:每个节点
$ v_i $ 在每个子网 $ \mathcal G_m $ 下的embedding
$ \left\{\mathbf{\vec v}_i^{(m)} \right\}_{i=1,\cdots,n}^{m=1,\cdots,M} $算法步骤:
初始化
$ \mathbf{\vec b}_i,\mathbf{\vec u}_i^{(m)},\mathbf X^{(m)} $ 为零,随机初始化 $ \mathbf{\vec c}_j $ 。对每子网
$ \mathcal G_m $ 进行迭代:生成随机游走序列集合
$ \left\{\text{Path}_1^{(m)},\text{Path}_2^{(m)},\cdots,\right\} $ 。其中对于每条随机游走序列 $ \text{Path}^{(m)} $ :对于每个节点
$ v_i\in \text{Path}^{(m)} $ :对于节点
$ v_i $ 上下文窗口内的每个上下文 $ v_j $ :随机采样
$ K $ 个负样本。计算
$ \mathbf{\vec v}_i^{(m)} = \mathbf{\vec b}_i + w^{(m)}\times \mathbf X^{(m)^\top} \mathbf{\vec u}_i^{(m)} $ 。对正样本
$ v_j $ 和 $ K $ 个负样本,通过梯度更新参数 $ \mathbf{\vec b}_i, \{\mathbf{\vec c}_k\}_{k=1}^K, \mathbf{\vec u}_i^{(m)},\mathbf X^{(m)} $ 。如果
$ \left\|\mathbf X^{(m)}\right\|\gt r $ ,则进行截断:
最终输出每个节点
$ v_i $ 在每子网 $ \mathcal G_m $ 下的embedding
$ \left\{\mathbf{\vec v}_i^{(m)} \right\}_{i=1,\cdots,n}^{m=1,\cdots,M} $ 。
我们的算法基于随机游走策略。假设有
$ M $ 种关系类型 $ n $ 个节点,则我们的时间复杂度为 $ O(M\times n) $ ,空间复杂度为 $ O((d+s\times M)\times n) $ 。
27.2 实验
数据集:
我们选择了
Manlio De Domenico
项目公开的四个多重网络,选择标准是:节点数量不能太少,且边不能太稀疏。这意味着每种关系类型的每个节点至少具有一条边。Vickers
:对澳大利亚维多利亚州一所学校初一年级29
名学生问卷调查得到的数据。问卷调查分三个问题,每个问题创建了网络中的一种关系。CKM
:由伊利诺伊州、布卢明顿市、昆西市、加勒斯堡市四个镇的医师收集的数据。医师们提出了三个问题,每个问题都创建了网络中的一种关系。LAZEGA
:多重社交网络,包含企业中的三种关系(工友co-work
、好友、咨询advice
)。C.ELEGANS
:神经元多重网络,神经元不同的突触连接创建了网络中的不同关系。连接类型包括:ElectrJ
、MonoSyn
、PolySyn
。
另外,由于上述多重网络的规模相对较小,为了测试我们模型的可扩展性和效果,我们还选择了两个真实的大型社交网络。
Twitter
:包含一周内关于“希格斯玻色子发现”的所有推文。我们选择最大的两种关系(跟帖following
和转发retweet
)来构建多重网络。Private
:一个在线社交网络。在该网络中,用户可以建立好友关系并将自己的文章发送给好友。我们随机选择40000
名用户,这些用户都有毕业大学的信息,然后我们记录了这些用户一个月内所有文章的转发活动。我们在文章内容上应用了主题模型
topic model
,然后将文章根据主题来分类。最终我们得到了16
个主题,每个主题都创建了多重关系网络中的一种关系。如果再加上好友关系,则一共有17
种关系。
baseline
方法:DeepWalk
:通过随机游走策略构建节点序列,然后在节点序列上应用SkipGram
算法来生成node embedding
。LINE
:保持图的一阶邻近度和二阶邻近度从而得到node embedding
。Node2vec
:基于有偏的随机游走得到节点序列,然后在节点序列上应用SkipGram
算法来生成node embedding
。PMNE
:提出三种不同的模型将多重网络聚合,并为每个节点点生成一个overall embedding
。这三种模型分别为PMNE(n)
、PMNE(r)
、PMNE(c)
。
除了
embedding based
之外,我们还比较了structure based
方法,包括:Common neighbor:CN
:每对节点pair
对,它们的公共邻居节点越多,则存在链接的可能性越大。Jaccard Coefficient:JC
:每对节点pair
对,使用它们的邻居总数对公共邻居数量进行归一化。Adamic/Adar:AA
:类似于JC
,但是AA
给那些邻居更少的节点更大的权重。
评估指标:
- 对于链接预测任务,我们使用
ROC-AUC
作为评估指标。 - 对于节点分类任务,我们对学到的
embedding
采用 $ L_2 $ 正则化的逻辑回归分类器训练并分类,并评估分类的准确率accuracy
。
- 对于链接预测任务,我们使用
参数配置:
所有
embedding
方法的embedding
维度为200
。由于
LINE
有一阶embedding
和二阶embedding
,因此它们的维度都是100
,最终拼接后的维度是200
。对于所有基于随机游走的方法,我们将上下文窗口设为
10
,负采样比例为5
。对于
node2vec
,我们根据实验使用最佳超参数,即 $ p=2,q=0.5 $ 。对于
PMNE
模型,我们使用原始论文给出的超参数。对于
MNE
,我们将additional embedding
的维度设为 $ s=10 $ 。
链接预测任务:对每对节点我们计算其
embedding
的余弦相似度,相似度越大则它们之间越可能存在链接。- 对于简单网络模型(如
DeepWalk,LINE,Node2Vec
),我们将为每个子网训练一个单独的embedding
,并使用该embedding
来预估对应关系上的链接。这意味着这些embedding
没有来自网络其它类型的信息。 - 对于多重网络模型,我们得到的
node embedding
可以融合网络其它类型的信息。
我们在网络的每个子网上计算
AUC
,并取所有子网的AUC
均值作为最终结果。我们使用五折交叉验证,并报告了结果的均值和标准差。注意:
Twitter
和Private
数据集中,following
关系和friendship
关系是其它关系类型的基础。如,我们只能将文章发送给好友。因此在选择子网负边时,我们需要确保选择的是满足基础关系(如following/friendship
关系)的负边。并且我们不会评估基础网络(即following/friendship
网络)。结论:
- 对于几乎所有网络,联合考虑网络的不同关系类型都是有帮助的。这与我们假设一致,即来自任何单个子网的信息不足,并且不同子网的信息可以互补。
baseline
方法的性能因为不同网络拓扑结构差异很大。如LAZEGA
或C.ELEGANS
这样的稠密网络,传统简单方法的性能就足够好,有时甚至比embedding
方法还要好。但是当网络相对稀疏时,embedding based
方法更好。- 我们的方法和
PMNE
区别在于:PMNE
为一个节点生成一个overall embedding
,而我们的方法生成一组embedding
用于捕获每种关系类型的不同信息。实验结果表明,这些信息可能非常重要。
总而言之,我们的方法稳定地超越了其它所有
baseline
,或达到baseline
相当的性能。我们的理解是:模型的common embedding
会合并来自不同关系类型的信息,而additional embedding
会保留每种关系类型特有的信息。- 对于简单网络模型(如
参数敏感性:我们的方法有三个超参数:低维
additional embedding
的维度 $ s $ 、低维addtional embedding
的权重 $ \left\{w^{(m)}\right\}_{m=1}^M $ 、变换矩阵范数上限 $ r $ 。为清楚地了解这些超参数的影响,我们使用不同的配置重复进行连接预测实验。对于四个小数据集,我们取其评估结果的均值来查看变化的趋势。- 如图
(a)
所示,当增加 $ s $ 时模型性能得到改善(固定 $ w^{(m)}=1, r= 1000 $ )。当 $ s=10 $ 时模型性能最高。这证明在common embedding
的帮助下,我们可以使用非常低的维度(约为common embedding
维度的十分之一)来表达多重网络的每种关系类型。 - 如图
(b)
所示,当增加 $ w^{(m)} $ 时模型性能将会提高(固定 $ s=10,r=1000 $ )。但是达到1.0
之后性能略有下降。 - 如图
(c)
所示,如果将 $ r $ 设置得太小,则可能会限制模型的学习过程(固定 $ s=10, w^{(m)}=1 $ )。当 $ r\gt 10 $ 时模型性能将趋于稳定。
- 如图
节点分类:我们进行节点分类任务来评估
embedding
质量。CKM
社交网络是唯一提供分类标签的多重网络,因此我们将其作为实验数据集,label
为researcher
的原始公司。考虑数据集的大小,我们使用两折交叉验证。对于
DeepWalk/LINE/Node2Vec
,由于它们是为简单网络设计的,因此我们为每个子图单独训练一个embedding
,然后取所有子图的embedding
均值作为最终embedding
。对于我们的方法,我们将所有类型的权重 $ w^{(m)} $ 设置为1.0
,然后所有子图embedding
取平均作为最终embedding
。如下图所示,我们的方法在所有
embedding
方法中性能最好。可以看到即使是最简单的embedding
取平均,我们的模型也可以得到高质量的overall embedding
。数据集太小太简单,结论没有多大的说服力。
可扩展性:最后我们研究模型的可扩展性。由于现实世界的社交网络可能非常庞大,因此如果我们学习所有子图的
embedding
,这些模型的训练和存储可能是一个巨大挑战。因此,我们提出了小维度的addtional embedding
和变换矩阵的结构,试图在不牺牲整体性能的条件下减小整体模型的大小。如下所示,我们的方法使用的内存几乎和网络大小成线性关系。
- 与
Node2Vec
和LINE
相比,我们的模型在不牺牲性能的情况下仅使用十分之一的内存空间。DeepWalk/Line
的空间复杂度为 $ O(d\times M\times n) $ ,而我们的空间复杂度为 $ O((d+s\times M)\times n) $ 。由于 $ s\ll d $ ,因此我们模型的空间复杂度要小得多。 - 对于
PMNE
,由于它们将多重网络合并到单个网络中,因此它们的模型最小。但是它们的模型也丢失了各种类型关系特有的信息,这些信息在之前的实验中被证明很重要。
- 与
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论