数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
- 线性模型
- 支持向量机
- 朴素贝叶斯
- 决策树
- knn
- 集成学习
- 梯度提升树
- 数据预处理
- 模型评估
- 降维
- 聚类
- 半监督学习
- EM 算法
- 最大熵算法
- 隐马尔可夫模型
- 概率图与条件随机场
- 边际概率推断
- 主题模型
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- CRF ++
- lightgbm
- xgboost
- xgboost 使用指南
- scikit-learn
- spark
- numpy
- matplotlib
- matplotlib 使用指南
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
三十七、xDeepInt [2023]
-
在
CTR
预测模型中,探索有用的特征交互在提高模型性能方面起着关键作用。传统上,数据科学家根据领域知识搜索和建立手工制作的特征交互,以提高模型性能。在实践中,高质量的特征交互需要昂贵的时间和人力成本。此外,鉴于大量的特征和高cardinality
,手动提取所有可能的特征交互是不可行的。因此,在高维和稀疏的特征空间中,自动有效地学习低阶特征交互和高阶特征交互,成为学术界和工业界提高CTR
预测模型性能的一个重要问题。由于强大的
feature learning
能力,深度学习模型在推荐系统中取得了巨大的成功。学术界和工业界都提出了一些深度学习架构。然而,所有现有的模型都是利用DNN
作为学习高阶的、隐式的、bit-wise
特征交互的building block
,没有阶次的约束。当建模显式的特征交互时,现有的方法只能有效地捕获低阶的显式交互。学习高阶交互通常需要更高的计算成本。在论文
《xDeepInt: a hybrid architecture for modeling the vector-wis eand bit-wise feature interactions》
中,作者提出了一个高效的基于神经网络的模型,称为xDeepInt
,以显式地学习vector-wise
特征交互和bit-wise
特征交互的组合。在多项式回归的启发下,作者设计了一个新颖Polynomial Interaction Network: PIN
层来显式地捕捉有界阶次的vector-wise
交互。为了以可控的方式同时学习bit-wise
交互和vector-wise
交互,作者将PIN
与subspace-crossing
机制相结合,这大大提升了模型性能,并带来更多的灵活性。bit-wise
交互的阶次随着子空间的数量而增长。综上所述,论文贡献如下:
- 论文设计了一个名为
xDeepInt
的新型神经网络架构,它显式地同时建模了vector-wise
交互和bit-wise
交互,免除了联合训练的DNN
和非线性激活函数。所提出的模型是轻量级的,但是比许多现有的结构更复杂的模型产生了更好的性能。 - 在高阶多项式逻辑回归的启发下,论文设计了一个
Polynomial-Interaction-Network: PIN
层,它可以递归地学习高阶的、显式的特征交互。通过调整PIN
层的数量来控制交互的阶次。作者进行了一项分析,以证明PIN
的多项式逼近的属性。 - 论文引入了一个
subspace-crossing
机制来建模PIN
层内不同field
之间的bit-wise
交互。PIN
层和subspace-crossing
机制的结合使我们能够控制bit-wise
交互的阶次。随着子空间数量的增加,模型可以动态地学习更细粒度的bit-wise
特征交互。 - 论文设计了一个与所提模型的结构相协调的优化策略。论文将
Group Lasso FTRL
应用于embedding table
,将整个行缩减为零,实现了feature selection
。为了优化PIN
层的权重,论文直接应用FTRL
。权重的稀疏性导致了对特征交互的选择。 - 论文在三个真实世界的数据集上进行了综合实验。结果表明:
xDeepInt
在极端高维和稀疏的setting
下优于现有SOTA
的模型。论文还对xDeepInt
的超参数设置进行了敏感性分析,并对DNN
的集成进行了消融研究。
- 论文设计了一个名为
-
相关工作:
-
建模隐式交互:大多数
DNN-based
的方法在初始阶段将高维稀疏categorical feature
和连续特征映射到低维潜在空间。在不设计具体模型结构的情况下,DNN-based
的方法通过将stacked embedded feature vector
馈入深度前馈神经网络来学习高阶的隐式的特征交互。Deep Crossing Network
利用前馈结构中的残差层来学习高阶交互,并提高稳定性。- 一些混合网络架构,包括
Wide & Deep Network: WDL
、Product-based Neural Network: PNN
、Deep & Cross Network: DCN
、Deep Factorization Machine: DeepFM
、eXtreme Deep Factorization Machine: xDeepFM
采用前馈神经网络作为其深度组件来学习高阶的隐式交互。补充的隐式高阶交互提高了那些仅仅建模显式交互的网络的性能。
-
建模显式交互:
-
Deep & Cross Network: DCN
以显式的方式探索bit-wise level
特征交互。具体而言,DCN
的每个cross layer
都构建了所有的交叉项,从而利用bit-wise
交互。cross layer
的数量控制了bit-wise
特征交互的阶次。 -
最近的一些模型使用向量乘积的特定形式显式地学习
vector-wise
特征交互。-
Deep Factorization Machine: DeepFM
通过联合学习feature embedding
,将factorization machine layer
和前馈神经网络结合起来。factorization machine layer
通过内积 $ <\mathbf{\vec x}_i,\mathbf{\vec x}_j> $ 来显式建模特征 $ i $ 和特征 $ j $ 之间的pairwise vector-wise
交互。然后,vector-wise
输出与前馈神经网络的输出单元相拼接。 -
Product Neural Network: PNN
引入了内积层inner product layer
和外积层outer product layer
,分别学习显式的vector-wise
交互和显式的bit-wise
交互。是否可以用类似于
AutoFIS
的机制,在搜索阶段查找vector-wise
交互和bit-wise
交互中的重要交互,然后在重训练阶段裁剪掉不重要的交互从而提高性能? -
xDeepFM
通过使用Compressed Interaction Network: CIN
学习显式的vector-wise
交互,其中CIN
具有类似于RNN
的架构,并使用Hadamard product
学习所有可能的vector-wise
交互。卷积滤波器和池化机制被用来提取信息。 -
FiBiNET
利用Squeeze-and-Excitation
网络动态地学习特征的重要性,并通过双线性函数来建模特征交互。
-
-
在最近关于序列模型的研究中,
Transformer
架构被广泛用于理解相关特征之间的关联。通过不同层的多头自注意力神经网络,AutoInt
可以学习输入特征的不同阶次的特征组合。一些工作采用残差连接从而传递不同阶次的特征交互。
上述方法通过使用外积、
kernel product
、或多头自注意力来学习显式的特征交互,这需要昂贵的计算成本。 -
-
37.1 模型
-
xDeepInt
的架构如下图所示:- 首先是输入层和
embedding
层,它们将连续特征和高维categorical feature
映射到一个稠密的向量。 - 然后是
Polynomial Interaction Network: PIN
层,它们利用带残差连接的交互层来显式地学习vector-wise
交互。 - 此外我们实现了
subspace-crossing
机制来建模bit-wise
交互,其中子空间的数量控制着bit-wise
交互的和vector-wise
交互的混合程度。
论文的核心思想就是
DCN V2
加上subspace-crossing
机制。其中subspace-crossing
机制会大大增加模型容量,介于feature-wise
和bit-wise
之间。论文整体创新性不足,不建议阅读。此外,
subspace-crossing
机制可以在实践中应用。 - 首先是输入层和
-
Embedding Layer
:假设我们有 $ F $ 个field
。在我们的特征预处理步骤中,我们将所有的连续特征以equal frequency bin
的方式分桶,然后将分桶后的连续特征、以及categorical
特征嵌入到同一个潜在空间 $ \mathbb R^K $ :其中:
$ \mathbf V_f $ 为field
$ f $ 的embedding matrix
, $ \mathbf{\vec x}_f $ 为field
$ f $ 的one-hot
向量(即,原始的输入特征), $ \mathbf{\vec e}_f $ 为field
$ f $ 的embedding
向量。我们堆叠
$ F $ 个embedding
向量,从而获得input feature map
$ \mathbf X_0 $ :注意:大多数
DNN-based
方法将embedding
向量拼接成一个更长的一维向量,而这里将embedding
向量堆叠为二维矩阵。 -
Polynomial Interaction Network: PIN
:PIN
的公式如下:其中:
$ \circ $ 为Hadamard product
; $ \mathbf W_{l-1} \in \mathbb R^{F\times F} $ ; $ \mathbf 1\in \mathbb R^{K\times F} $ 为全一的矩阵; $ \mathbf X_{l-1} $ 为第 $ l $ 个交互层的输入; $ \mathbf X_l $ 为第 $ l $ 个交互层的输出。 $ \mathbf W_{l-1} $ 是作用在 $ \mathbf X_{l-1} $ 上还是作用在 $ \mathbf X_0 $ 上,区别不大。上述公式就是
DCN V2
的公式。第
$ l $ 个PIN
层的输出,是所有阶次小于等于 $ l $ 的vector-wise
交互的加权和。PIN
层的结构是根据以下几个方面启发而来:- 首先,
PIN
有一个递归结构。当前层的输出建立在上一层的输出、以及一阶feature map
的基础上,确保高阶特征交互是建立在前几层的低阶特征交互之上。 - 其次,我们使用
Hadamard product
来建模显式的vector-wise
交互。相比内积的形式,Hadamard product
保留了更多的信息。 - 然后,我们建立一个
field aggregation layer
$ \text{Agg}^{(l)}(\mathbf x) = \mathbf X\mathbf W_l $ ,它在vector-wise level
上使用线性变换 $ \mathbf W_l $ 来组合feature map
。field aggregation feature map
的每个向量可以被看作是由input feature map
的加权和所构建而成。 - 然后,针对当前层,我们取
field aggregation feature map
以及上一层输出之间的Hadamard product
。这一操作使我们能够在现有的 $ (l-1) $ 阶特征交互的基础上探索所有可能的 $ l $ 阶多项式特征交互。 - 最后,我们利用残差连接,从而允许组合不同阶次的
vector-wise
的特征交互,包括第一个feature map
。随着层数的增加,特征交互的阶次也在增加。PIN
的递归结构能够限制多项式特征交互的阶次。
- 首先,
-
subspace-crossing
机制:PIN
建模vector-wise
交互,然而它无法建模bit-wise
交互。为了建模bit-wise
交互,我们提出了subspace-crossing
机制。假设我们把embedding
空间拆分为 $ h $ 个子空间,那么input feature map
$ \mathbf X_0 $ 就由 $ h $ 个子矩阵来表示:其中:
$ \mathbf X_{0,i}\in \mathbb R^{ (K/h) \times F} $ 。然后,我们在
field
维度上堆叠所有子矩阵,并构建一个堆叠的input feature map
:通过将每个
field
的embedding
向量分割成 $ h $ 个子向量并将它们堆叠在一起,我们可以将不同embedding
维度的bit
进行对齐,并在堆叠的sub-embedding
上创建vector-wise
交互。因此,我们将 $ \mathbf X_0^\prime $ 馈入PIN
:其中:
$ \mathbf W_{l-1}^\prime \in \mathbb R^{(F*h)\times (F*h)} $ 、 $ \mathbf 1\in \mathbb R^{(K/h)\times (F*h)} $ 、 $ \mathbf X_l^\prime \in \mathbb R^{(K/h)\times (F*h)} $ 。在普通的
PIN
层中,feature map
的field aggregation
、Hadamard product
的乘法交互都是vector-wise level
的。subspace-crossing
机制所增强的PIN
将 $ h $ 个被对齐的子空间作为输入,从而鼓励PIN
通过交叉不同子空间的特征来捕获显式的bit-wise
交互。子空间的数量 $ h $ 控制着bit-wise
交互的复杂性,较大的 $ h $ 有助于模型学习更复杂的特征交互。这其实是
group-bit wise
的交互,而不仅仅是bit-wise
交互。 -
Output Layer
:PIN
的输出是一个由不同阶次的特征交互组成的feature map
,包括由残差连接保留的原始input feature map
、以及由PIN
学到的高阶特征交互。最终预测为:其中:
$ \sigma(\cdot) $ 为sigmoid
函数, $ \mathbf W_\text{out}\in \mathbb R^{F\times 1} $ 为feature map
聚合向量, $ \mathbf 1\in \mathbb R^1 $ 为全一的向量, $ b\in \mathbb R $ 为bias
。 -
优化和正则化:我们使用
Group Lasso Follow The Regularized Leader: G-FTRL
作为embedding
层的优化器从而进行特征选择。我们使用Follow The Regularized Leader: FTRL
作为PIN
层的优化器从而进行交互选择。Group lasso FTRL
将每个field
中不重要的特征的整个embedding
向量正则化为完全为零,这实质上是进行特征选择,并且为工业界的setting
带来更多的训练效率。group lasso regularization
是在子空间分割机制之前应用的,这样特征选择在每个子空间之间是一致的。FTRL
将PIN
层中weight kernel
的单个元素正则化为完全为零,这就排除了不重要的特征交互,使模型的复杂性正则化。 这种优化策略利用了不同优化器的特性,在embedding table
和weight kernel
中分别实现了row-wise
稀疏性和element-wise
稀疏性。因此,它同时提高了training
和serving
的泛化能力和效率。它在模型压缩方面也发挥了重要作用。
如果换
Adam
优化器,那么最终性能有所下降,但是仍然保持较好。 -
训练:我们使用
logloss
作为损失函数:其中:
$ y_i $ 为ground-truth
, $ \hat y $ 为模型预估的点击率, $ N $ 为训练样本数量。 -
PIN
和DCN
之间的差异:PIN
和DCN
都采用了iterative
的形式,然而它们在网络架构上有所差异。-
对
DCN
而言,第 $ l $ 层为:其中:
$ \mathbf{\vec x}_{0}\mathbf{\vec x}_{l-1}^\top $ 为向量外积。对于
DCN
,feature map
被展平并拼接成单个向量。所有高阶的bit-wise
交互首先通过 $ \mathbf{\vec x}_{0}\mathbf{\vec x}_{l-1}^\top $ 建模,然后通过线性聚合。这种结构导致了输出的特殊格式。如
《xdeepfm: Combining explicit and implicit feature interactions for recommender systems》
所述,DCN
层的输出是 $ \mathbf{\vec x}_0 $ 的标量倍数。xdeepfm
的论文也指出了DCN
的缺点:DCN
的输出是一种特殊的形式,每个隐层的输出都是 $ \mathbf{\vec x}_0 $ 的标量倍数,因此限制了模型的表达能力。- 交互只以
bit-wise
的方式出现。
-
PIN
用Hadamard product
建模vector-wise
特征交互,保留了vector-wise level
信息。为了让不同的
field
在vector level
上交叉,PIN
首先通过线性变换 $ \mathbf X_0 \mathbf W_{l-1} $ 为每个iterative PIN layer
聚合input feature map
,并通过 $ \mathbf X_{l-1}\circ (\mathbf X_0\mathbf W_{l-1} ) $ 来建模交互。因此,PIN
保持了vector-wise
特征交互,并且不限制输出为 $ \mathbf X_0 $ 的标量倍数。此外,每个
PIN
层都与输入feature map
$ \mathbf X_0 $ 直接相连,这提高了模型的可训练性。我们还将在后面的章节中证明PIN
的多项式逼近的属性。
-
-
xDeepInt
分析:考虑具有 $ L $ 个PIN
层、以及subspace crossing
机制的xDeepInt
模型。subspace crossing
机制采用 $ h $ 个子空间。输入具有 $ F $ 个field
,embedding size
为 $ K $ 。-
多项式逼近:参考原始论文。
作者仅仅只是把
PIN
的公式进行展开,然后说明这是多项式逼近。并未从理论上证明。 -
时间复杂度:
- 第
$ l $ 个PIN
层计算feature map
$ \mathbf X\mathbf W_{l-1} $ 的成本是 $ O(hF^2K) $ 。对于 $ L $ 层,所有feature map
的计算总成本是 $ O(LhF^2K) $ 。 - 额外的成本还有
Hadamard product
和残差连接。对于 $ L $ 层,它们的总成本为 $ O(LFK) $ 。
在实践中,
$ h $ 不会太大。因此,总的时间复杂度 $ O(LhF^2K + LFK) $ 主要取决于field
数量 $ F $ 和embedding size
- 第
-
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论