数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
三十六、DCNN [2016]
与结构化数据打交道是一种挑战。一方面,找到正确的方式来表达和利用数据中的结构可以改善预测性能;另一方面,找到这样的
representation
可能是困难的,而且在模型中添加结构会大大增加预测的复杂性。论文
《Diffusion-Convolutional Neural Networks》
的目标是为通用的结构化数据设计一个灵活的模型,在提高预测性能的同时避免复杂性的增加。为了实现这一目标,作者引入 "diffusion-convolution
"操作,将卷积神经网络扩展到通用的图结构数据。简而言之,diffusion-convolution
操作不是像标准卷积操作那样在网格结构的输入中扫描一个 "正方形",而是通过在图结构的输入中扫描每个节点的diffusion process
来建立一个latent representation
。这个模型的动机是这样的:封装了
graph diffusion
的representation
可以为预测提供一个比graph
本身更好的basis
。graph diffusion
可以表示为一系列的矩阵幂次从而包含上下文信息,并且可以在多项式时间内计算,以及可以在GPU
上有效实现。在论文
《Diffusion-Convolutional Neural Networks》
中,作者提出了diffusion-convolutional neural network: DCNN
,并探讨了它们在图数据的各种分类任务中的表现。许多技术在分类任务中包括结构信息,如概率关系模型probabilistic relational model
和核方法kernel method
。DCNN
提供了一种补充方法,在节点分类任务的预测性能上有了明显的改善。DCNN
的主要优势:- 准确性:在实验中,
DCNN
在节点分类任务中的表现明显优于其他方法,在图分类任务中的表现与baseline
方法相当。 - 灵活性。
DCNN
提供了一种灵活的图数据表示方法,可以编码节点特征、边特征、以及单纯的结构信息,只需进行少量的预处理。DCNN
可用于图数据的各种分类任务,包括节点分类和图分类。 - 速度快。
DCNN
的预测可以表示为一系列的多项式时间的张量运算,并且该模型可以使用现有的库在GPU
上有效地实现。
- 准确性:在实验中,
相关工作:
其它
graph-based
神经网络方法:其他研究者已经研究了如何将CNN
从网格结构扩展到更普遍的图结构数据。《Spectral networks and locally connected networks on graphs》
提出了一种与层次聚类hierarchical clustering
相联系的空间方法,其中网络的层是通过节点集合的hierarchical partitioning
来定义的。在同一篇论文中,作者提出了一种谱方法,将卷积的概念扩展到graph spectra
。- 后来,
《Deep Convolutional Networks on Graph-Structured Data》
将这些技术应用于这样的数据:图并不是立即出现但是必须被推断。
属于空间类别的
DCNN
与这项工作不同,因为DCNN
的参数化parameterization
使模型可以迁移:在一个图上学习的DCNN
可以应用于另一个图。概率关系模型:
DCNN
也与概率关系模型probabilistic relational model: PRM
有着密切的联系。概率关系模型是一族graphical model
,能够代表关系数据的分布(《Probabilistic Graphical Models: Principles and Techniques》
)。与概率关系模型相比,DCNN
是确定性的,这使得DCNN
能够避免指数爆炸(指数爆炸阻碍了概率关系模型的学习和推断)。我们的研究结果表明:
DCNN
的表现优于部分观察的条件随机场conditional random field: CRF
,即半监督学习的SOTA
概率关系模型。此外,DCNN
以相当低的计算成本提供这种性能。学习DCNN
和部分观测的CRF
的参数需要数值上最小化一个非凸目标:对于DCNN
来说是反向传播误差,对于CRF
来说是负的边际对数似然。- 在实践中,部分观测的
CRF
的边际对数似然是使用对比分区函数contrast-of-partition-function
方法来计算的,这需要运行两次循环的信念传播belief propagation
:一次是在整个图上,一次是在固定观测标签的情况下。这种算法,以及数值优化中的每个step
,具有指数级的时间复杂度 $ O(|\mathcal E_t|\times n_t^{C_t}) $ ,其中 $ C_t $ 是 $ \mathcal G_t $ 中最大团maximal clique
的大小。 - 相比之下,
DCNN
的学习程序只需要对训练数据中的每个实例进行一次前向传播和反向传播。复杂度由graph definition matrix
$ \mathbf A $ 和graph design matrix
$ \mathbf V $ 之间的矩阵乘法所支配,整体的多项式复杂度为 $ O(n_t^2\times d) $ 。
其中,
$ n_t $ 为第 $ t $ 个图 $ \mathcal G_t $ 的节点数量, $ |\mathcal E_t| $ 为图 $ \mathcal G_t $ 的边数量, $ d $ 为输入特征维度。- 在实践中,部分观测的
核方法:核方法
kernel method
定义了节点之间(即kernel on graph
)或图之间(即graph kernel
)的相似性度量,这些相似性可以作为通过核技巧kernel trick
进行预测的基础。graph kernel
的性能可以通过将图分解为子结构,将这些子结构视为句子中的一个词,并拟合一个word-embedding
模型来获得矢量化来提高。DCNN
与kernel on graph
的exponential diffusion
族有联系。exponential diffusion graph kernel
$ \mathbf K_\text{ED} $ 是一个矩阵幂级数的和: $ \mathbf Z_t = f\left(\mathbf W^{(c)}\odot\left(\mathbf P_t^{(*)}\mathbf X_t\right)\right) $ 中给出的diffusion-convolution activation
也是由幂级数构造的。然而,它和 $ \mathbf K_\text{ED} $ 有几个重要的区别:- 首先,
$ \mathbf Z_t $ 中的权重是通过反向传播学习的,而kernel representation
不是从数据中学习的。 - 其次,
diffusion-convolution representation
是由节点特征和图结构来建立的,而exponential diffusion kernel
则仅由图结构来建立。 - 最后,这两种
representation
有不同的维度: $ \mathbf K_\text{ED} $ 是一个 $ n_t\times n_t $ 的kernel matrix
,而 $ \mathbf Z_t $ 是一个 $ n_t\times K\times d $ 的张量,不符合kernel
的定义。其中 $ K $ 为最大的K-hop
邻域。
- 首先,
36.1 模型
DCNN
模型建立在扩散核diffusion kernel
的思想上:基于两个节点之间的所有路径来衡量两个节点的邻近关系,其中路径越短权重越高。术语 “扩散卷积” 表明网络的三个思想:特征学习
feature learning
、参数共享、不变性。DCNN
的核心是抽取图结构数据的特征。DCNN
也用到参数共享,其中共享是发生在扩散搜索深度上diffusion search depth
,而不是CNN
的网格位置上。DCNN
关于节点索引不变,即两个同构输入图的扩散卷积的representation
将是相同的。
和
CNN
不同,DCNN
没有池化操作。考虑我们有
$ T $ 个图 $ \mathbb G=\{\mathcal G_t\}_{t=1}^T $ ,第 $ t $ 个图为 $ \mathcal G_t=(\mathcal V_t,\mathcal E_t) $ ,它可以是有向图也可以是无向图、可以是带权重也可以是不带权重的图。其中: $ \mathcal V_t=\{v_{t,1},\cdots,v_{t,n_t}\} $ 为第 $ t $ 个图的 $ n_t $ 个节点集合, $ \mathcal E_t $ 为第 $ t $ 个图的边集合。 $ \mathbf A_t\in \mathbb R^{n_t\times n_t} $ 为第 $ t $ 个图的邻接矩阵; $ \mathbf D_t=\text{diag}(D_{t,i}) $ 为对应的degree
矩阵,其中 $ D_{t,i} = \sum_{j}A_{t,i,j} $ 。 $ \mathbf P_t=\mathbf D_t^{-1}\mathbf A_t $ 为转移概率矩阵, $ P_{t,i,j} $ 表示在第 $ t $ 个图中节点 $ v_{t,i} $ 经过一步转移到节点 $ v_{t,j} $ 的概率。- 节点
$ v_{t,i}\in \mathcal V_t $ 关联一个输入特征向量 $ \mathbf{\vec x}_{t,i}\in \mathbb R^{d} $ 。第 $ t $ 个图的所有节点的输入特征向量构成输入特征矩阵 $ \mathbf X_t\in \mathbb R^{n_t\times d} $ 。 - 对于节点分类任务,每个节点
$ v_{t,i} $ 关联一个标签 $ y_{t,i} $ ;对于图分类任务,每个图 $ \mathcal G_t $ 关联一个标签 $ y_t $ 。
定义
$ K $ 阶转移概率矩阵为 $ \mathbf P_t^{(K)}\in \mathbb R^{n_t\times n_t} $ ,它就是 $ \mathbf P_t $ 的 $ K $ 次幂: $ \mathbf P_t^{(K)} $ 的元素 $ P_{t,i,j}^{(K)} $ 表示节点 $ v_{t,i} $ 经过 $ K $ 步随机游走到达节点 $ v_{t,j} $ 的概率。令
$ \mathbf P_t^{(*)}\in \mathbb R^{n_t\times K\times n_t} $ 包含从 $ 1\cdots K $ 阶的转移概率矩阵,其中: $ P^{(*)}_{t,i,k,j}=P^{(k)}_{t,i,j} $ 。 $ \mathbf P_t^{(*)} $ 包含所有从节点 $ v_{t,i} $ 到节点 $ v_{t,j} $ 的、不超过 $ K $ 步的随机游走概率。定义扩散卷积为:
其中:
$ i $ 表示节点 $ v_{t,i} $ ; $ j $ 表示节点 $ v_{t,j} $ ; $ k $ 表示k-hop
; $ s $ 表示特征维度。因此节点
$ v_{t,i} $ 得到的representation
是对图 $ \mathcal G_t $ 中所有节点、所有维度上加权和得到,加权的权重由两部分组成:- 节点之间的转移概率
$ P^{(k)}_{t,i,j} $ ,它刻画了两个节点之间路径的重要性。 - 指定维度、指定路径长度的权重
$ W^{(c)}_{k,s} $ ,它在相同维度且相同路径长度的所有位置上共享,即在扩散搜索深度上共享。
以张量形式表示为:
其中:
$ \mathbf W^{(c)}\in \mathbb R^{K\times d} $ 为待学习的参数矩阵。 $ \odot $ 为逐元素的乘积。 $ \mathbf Z_t\in \mathbb R^{n_t\times K\times d} $ 为学到的节点representation
张量。
可以看到,模型只有
$ O(K\times d) $ 个参数,与输入图的规模无关。并且学到的参数可以迁移:在一个图上学到的DCNN
可以应用到另一个图。这里的核心是
$ \mathbf W^{(c)}\in \mathbb R^{K\times d} $ ,它定义了指定路径深度、指定维度的权重。而节点的聚合权重是由 $ k $ 阶转移概率矩阵来决定。- 节点之间的转移概率
DCNN
可以用于节点分类或者图分类。节点分类:一旦得到
$ \mathbf Z_t $ ,则我们可以后续接dense
层和softmax
输出层来进行节点分类。图分类:如果将图
$ \mathcal G_t $ 中所有节点的激活值取平均,则得到graph-level
的representation
:其中:
$ \mathbf{\vec 1}^\top\in \mathbb R^{1\times n_t} $ 为全1
的行向量; $ \mathbf R_t\in \mathbb R^{ K\times d } $ 为图 $ \mathcal G_t $ 的representation
张量。一旦得到
$ \mathbf R_t $ ,则我们可以后续接dense
层和softmax
输出层来进行图分类。
注意:
$ \mathbf Z_t,\mathbf R_t $ 给出了 $ K $ 个hop
的representation
,在接入dense
层之前可以把这 $ K $ 个representation
拼接或者相加从而得到final representation
。对于没有节点特征的图,可以人工构造节点特征:
- 可以为每个节点构造一个取值为
1.0
的bias feature
。 - 可以使用节点的结构统计信息,如
pagerank
值、节点degree
等。
- 可以为每个节点构造一个取值为
DCNN
局限性:可扩展性
scalability
:DCNN
被实现为对稠密张量的一系列运算。存储 $ \mathbf P^{(*)} $ 需要 $ O(n_t^2K) $ 的内存,对于较大的图(如百万级甚至更大的图)可能会导致out-of-memory:OOM
错误。可以通过随机游走来近似
$ k $ 阶转移概率矩阵从而降低计算复杂度和内存需求。局部性
locality
:DCNN
旨在捕获图结构数据中的局部行为。我们是从每个节点开始的、最高K
阶的扩散过程来构建representation
,因此可能无法对长程依赖或者其它非局部行为进行编码。
DCNN
的训练:通过mini-batch
随机梯度下降来学习。可以证明:如果两个图
$ \mathcal G_1,\mathcal G_2 $ 是同构的,则它们的diffusion-convolutional representation
是相同的;如果两个图 $ \mathcal G_1,\mathcal G_2 $ 是非同构的,则它们的diffusion-convolutional representation
是不同的。证明见原始论文。
36.2 实验
实验配置:
使用
AdaGrad
算法进行梯度提升,学习率为0.05
。从均值为
0
、方差为0.01
的正态分布随机采样来初始化所有权重。选择双曲正切
tanh
函数作为非线性激活函数 $ f(\cdot) $ 。选择多分类
hinge loss
作为损失函数。假设一共 $ C $ 个类别,样本 $ i $ 的真实类别为 $ y_i $ ,模型预测为各类别的概率为 $ \mathbf{\vec p}_i\in \mathbb R^C $ 。则样本 $ i $ 的损失为:其中
$ \epsilon\gt0 $ 为间隔阈值。
36.2.1 节点分类
数据集:
Cora,Pubmed
论文引用数据集,每个节点代表一篇论文,边代表论文之间的引用关系,标签为论文的主题subject
。这里我们将引文网络视为无向图。Cora
数据集包含2708
篇论文、5429
条边。每篇论文都分配一个标签,标签来自7
个可能的机器学习主题。每篇论文都由一个向量表示,向量的每一位对应于是否存在从词典中抽取的1433
个术语是否存在。Pubmed
数据集包含关于糖尿病的19717
篇论文、44338
条边。论文被分配到三个类别之一。每篇论文都由一个TFIDF
向量来表示,其中词典大小为500
(即论文的特征向量维度为500
)。
这里集合
$ \mathbb G $ 由单个输入图 $ \mathcal G $ 组成,输入图的节点随机划分为训练集、验证集、测试集,每个集合具有相同数量的节点。在训练期间,模型可以看到所有节点的特征、所有边、以及训练集和验证集的标签。我们报告了测试集分类准确率以及
micro-F1
和macro-F1
,每个指标为多次实验计算得到的均值。我们还提供了
CORA
和Pubmed
数据集的learning curve
,其中验证集和测试集分别包含10%
的节点,训练集包含剩余节点的10% ~ 100%
。baseline
方法:l1logistic
和l2logistic
:分别代表L1
正则化的逻辑回归、L2
正则化的逻辑回归。逻辑回归模型的输入仅仅是节点的特征(并未使用图结构),并使用验证集对正则化参数进行调优。KED
和KLED
:分别代表图上的exponential diffusion kernel
和Laplacian exponential diffusion kernel
。这些kernel model
将图结构作为输入(并未使用节点特征)。CRF-LBP
:表示使用循环信念传播loopy belief propagation:LBP
进行推断的、部分观测partially-observed
的条件随机场conditional random field:CRF
。该模型的结果来自前人论文的实验结果。
下表给出了实验结果,可以看到:
DCNN
(K=2
)提供了最佳性能。下图的
(a),(b)
给出了learning curve
,可以看到:在Cora
数据集上,无论可用的训练数据量如何,DCNN
通常都优于baseline
方法。图
(c)
给出hop
数量的影响。可以看到:随着hop
数从0-hop
逐渐增加的过程中,性能先增加然后稳定,在3-hop
达到收敛。
36.2.2 图分类
数据集:我们采用
NCI1、NCI109、MUTAG、PTC、ENZYMES
等标准的图分类数据集。NCI1、NCI109
数据集由代表化合物的4100
和4127
个图组成,每个图都标有它是否具有抑制一组人类肿瘤细胞系生长的能力。图中每个节点分类有37
个(对于NCI1
)或38
个(对于NCI109
) 可能的标记之一。MUTAG
数据集包含188
个硝基化合物,被标记为芳族或非芳族化合物。节点包含7
个特征。PTC
包含344
个化合物,被标记为是否对于大鼠致癌。节点包含19
个特征。ENZYMES
包含600
个蛋白质的图,每个节点包含3
个特征。
输入的图集合随机拆分为训练集、验证集、测试集,每个集合包含数量相等的图,我们报告测试集的准确率、
micro-F1
和macro-F1
。每个指标为多次实验计算得到的均值。baseline
方法:l1logistic
和l2logistic
:分别代表L1
正则化的逻辑回归、L2
正则化的逻辑回归,它们仅利用节点特征。deepwl
:表示Weisfeiler-Lehman (WL) subtree deep graph kernel
,它仅利用图结构。
下表给出了实验结果,可以看到:和节点分类实验相反,没有明确的最佳模型在所有数据集、所有指标上最优。
我们还提供了
MUTAG
(图(a)
)和ENZYMES
(图(b)
) 数据集的learning curve
,其中验证集和测试集都分别包含10%
的图、训练集包含剩余图的10% ~ 100%
。从下图(c)
可以看到:扩大hop
数量并没有明显的好处。这些结果表明:尽管扩散卷积可以得到节点的有效表示,但是它们在
summarize
整个图的representation
方面做得很差。可以寻找一种方法来更有效地聚合节点来改善graph-level
的representation
,这留待以后工作。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论