数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
二十一、BST [2019]
在过去的十年中,推荐系统已经成为业界最流行的应用
application
。并且在过去的五年中,基于深度学习的方法已经广泛应用于工业推荐系统中。在中国最大的电商平台阿里巴巴上,推荐系统一直是Gross Merchandise Volume: GMV
和收入的主要引擎,并且在丰富的电商场景中已经部署了各种基于深度学习的推荐方法。阿里巴巴的推荐系统分为两个阶段:
match
和rank
。- 在
match
阶段,根据和用户交互的item
选择一组相似的item
。 - 然后在
rank
阶段,我们学习一个经过微调fine-tuned
的预测模型,从而预测用户点击给定候选item
集合的可能性。
在论文
《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》
中,我们重点关注阿里巴巴旗下淘宝(中国最大的Consumer-to-Consumer: C2C
平台)的rank
阶段。在这个阶段,我们有数百万的候选item
,并且需要在给定用户历史行为的情况下预测用户点击候选item
的概率。在深度学习时代,
embedding
和MLP
已经成为工业推荐系统的标准范式:大量原始特征作为向量被嵌入到低维空间中,然后馈入称作多层感知机multi layer perceptron: MLP
的全连接层中,从而预测用户是否会点击某个item
。代表作是谷歌的wide and deep learning: WDL
,以及阿里巴巴的Deep Interest networks: DIN
。在淘宝,我们在
WDL
的基础上构建了rank
模型,在Embedding&MLP
范式中使用了各种特征。例如,item
类目category
、品牌brand
,item
的统计数字,用户画像特征等等。尽管该框架取得了成功,但是它本身远远不能令人满意,因为它实际上忽略了一种非常重要的信号:用户行为序列(即用户按顺序点击的item
)背后的序列信号sequential signal
。例如,用户在淘宝上购买了
iphone
之后倾向于点击手机保护套,或者在购买一条裤子之后试图找到合适的鞋子。从这个意义上讲,在淘宝的rank
阶段部署预测模型时,不考虑这一因素是有问题的。- 在
WDL
中,模型只是简单地拼接所有特征,而没有捕获用户行为序列中的顺序信息order information
。 - 在
DIN
中,模型使用注意力机制来捕获候选item
和用户历史点击item
之间的相似性,也没有考虑用户行为序列背后的序列性质sequential nature
。
因此,在这项工作中,为解决
WDL
和DIN
面临的上述问题,我们尝试将用户行为序列的序列信号融合到淘宝的推荐系统中。受到
natural language processing: NLP
中机器翻译任务的Transformer
的巨大成功的启发,我们采用self-attention
机制,通过考虑embedding
阶段的序列信息来学习用户行为序列中每个item
的更好的representation
。然后将这些item representation
馈入到MLP
中来预测用户对候选item
的响应。Transformer
的主要优势在于,它可以通过self-attention
机制更好地捕获句子中单词之间的依赖关系。从直觉上讲,用户行为序列中item
之间的'dependency'
也可以通过Transformer
来提取。因此,我们在淘宝上提出了用于电商推荐的user behavior sequence transformer: BST
。离线实验和在线
A/B test
显示了BST
与现有方法相比的优越性。BST
已经部署在淘宝推荐的rank
阶段,每天为数亿消费者提供推荐服务。- 在
相关工作:自从
WDL
提出以来,人们已经提出了一系列基于深度学习的方法来提高CTR
预估的工作,如DeepFM
、XDeepFM
、Deep and Cross
等。然而,所有这些先前的工作都集中在神经网络的特征组合或不同架构上,而忽略了现实世界推荐场景中用户行为序列的顺序特性sequential nature
。最近,
DIN
通过注意力机制来处理用户的行为序列。我们的模型和DIN
之间的主要区别在于,我们提出使用Transformer
来学习用户行为序列中每个item
的更deeper
的representation
,而DIN
试图捕获历史点击item
和目标item
的相似性。换句话讲,我们的transformer
模型更适合捕获序列信号。在
《Self-attentive sequential recommendation》
和《BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer》
中,他们使用Transformer
模型来以sequence-to-sequence
的方式解决序列推荐问题,而我们的CTR
预估模型与他们的架构不同。
21.1 模型
在
rank
阶段,我们将推荐任务建模为点击率Click-Through Rate: CTR
预估问题,其定义如下:给定用户 $ u $ 点击item
构成的用户行为序列 $ \mathcal S(u) = \{v_1,\cdots,v_n\} $ ,我们需要学习一个函数 $ \mathcal F $ 来预测 $ u $ 点击目标item
$ v_t $ (即候选item
) 的概率。我们在
WDL
的基础上构建了BST
,整体架构如下图所示。从图中可以看到BST
遵循流行的Embedding&MLP
范式,其中历史点击item
和相关的特征首先被嵌入到低维向量中,然后被馈送到MLP
。具体而言,
BST
将用户行为序列(包括target item
和其它特征Other Features
)作为输入。其中Other Features
包括:用户画像特征、上下文特征、item
特征、以及交叉特征。- 首先,这些输入特征被嵌入为低维向量。为了更好地捕获行为序列中
item
之间的关系,可以使用transformer layer
来学习序列中每个item
的更深层representation
。 - 然后,通过将
Other Features
的embedding
和transformer layer
的输出进行拼接,并使用三层MLP
来学习hidden features
的交互作用。 - 最后,使用
sigmoid
函数生成最终输出。
注意:
Positional Features
被合并到Sequence Item Features
中。BST
和WDL
之间的主要区别在于:BST
添加了transformer layer
,从而通过捕获底层的序列信号来学到用户点击item
的更好的representation
。接下来的内容我们将以自下而上的方式介绍
BST
的关键组件:embedding layer
、transformer layer
、MLP
。- 首先,这些输入特征被嵌入为低维向量。为了更好地捕获行为序列中
21.1.1 Embedding Layer
第一个组件是
embedding layer
,它将所有输入特征嵌入到一个固定大小的低维向量中。在我们的场景中有各种特征,如用户画像特征、
item
特征、上下文特征、以及不同特征的组合(即交叉特征)。由于我们的工作聚焦于使用transformer
对用户行为序列进行建模,因此为简单起见我们将所有这些特征都表示为Other Features
,并在下表中给出了一些示例。我们将
Other Features
拼接起来,将它们嵌入到低维向量中。对于这些特征,我们创建一个embedding
矩阵 $ \mathbf W_o\in \mathbb R^{|\mathcal F|\times d_o} $ 。其中: $ d_o $ 为embedding
向量的维度, $ |\mathcal F| $ 为uniqe
特征数量。此外,我们还获得了用户行为序列中每个
item
(包括目标item
)的embedding
。我们使用两种类型的特征来表示一个item
:Sequence Item Features
(红色)、Positional Features
(深蓝色)。Sequence Item Features
包括item id
和category id
。注意,一个
item
往往具有数百个特征,而在用户行为序列中选择item
的所有这些特征代价太大。正如我们先前的工作《Billion-scale commodity embedding for e-commerce recommendation in alibaba》
所述,item id
和category id
足以满足性能要求。因此我们选择这两个稀疏特征来表示嵌入用户行为序列中的每个item
。Positional Features
对应于下面的positional embedding
。
对于每个
item
,我们将Sequence Item Features
和Positional Features
拼接起来,并创建一个embedding
矩阵 $ \mathbf W_V\in \mathbb R^{|\mathcal V|\times d_V} $ 。其中: $ d_V $ 为embedding
向量的维度, $ |\mathcal V| $ 为item
数量。我们使用 $ \mathbf{\vec e}_i\in \mathbb R^{d_V} $ 来表示给定行为序列中第 $ i $ 个item
的embedding
。
positional embedding
:在《Attention is all you need》
中,作者提出了一种positional embedding
来捕获句子中的顺序信息order information
。同样地,顺序order
也存在于用户行为序列中。因此,我们添加position
作为bottom layer
每个item
的输入特征,然后将其投影为低维向量。注意,
$ \text{pos}(v_i) = t(v_t) - t(v_i) $item
$ v_i $ 的position value
计算为:其中:
- $ v_t $ 为
target item
, $ v_i $ 为用户行为序列中第 $ i $ 个item
。 - $ t(v_t) $ 表示推荐时间
recommending time
,而 $ t(v_i) $ 表示用户点击item
$ v_i $ 的时间戳。
我们采用这种方法,因为在我们的场景中,它的性能优于
《Attention is all you need》
中的sin
和cos
函数。- $ v_t $ 为
21.1.2 Transformer Layer
这一部分,我们介绍了
Transformer layer
,它通过捕获行为序列中每个item
与其它item
的关系来学习item
的更深deeper
的representation
。
$ \text{Attention}(\mathbf Q,\mathbf K,\mathbf V) = \text{softmax}\left(\frac{\mathbf Q\mathbf K^\top}{\sqrt d}\right)\mathbf V $self-attention layer
:缩放的内积注意力scaled dot-product attention
定义为:其中: $ \mathbf Q $ 代表
query
, $ \mathbf K $ 代表key
, $ \mathbf V $ 代表value
。在我们的场景中,
self-attention
操作将item
的embedding
作为输入,通过线性映射将其转换为三个矩阵,并将其馈入attention layer
。遵从
$ \mathbf S = \text{MH}(\mathbf E) = \text{Concat}(\text{head}_1,\cdots,\text{head}_h)\mathbf W^{(H)}\\ \text{head}_i=\text{Attention}\left(\mathbf E\mathbf W^{(Q)},\mathbf E\mathbf W^{(K)},\mathbf E\mathbf W^{(V)}\right) $《Attention is all you need》
,我们使用multi-head attention
:其中:
- $ \mathbf W^{(Q)},\mathbf W^{(K)},\mathbf W^{(V)}\in \mathbb R^{d\times d} $ 为映射矩阵。
- $ \mathbf E $ 为 $ \mathcal S(u) $ 中所有
item
的embedding
矩阵。 - $ h $ 为
head
数量。
$ \mathbf F = \text{FFN}(\mathbf S) $Point-wise Feed-Forward Network
:遵从《Attention is all you need》
,我们添加一个point-wise Feed-Forward Network:FFN
来进一步提升模型的非线性,它定义为:为避免过拟合并且学习层次的有意义的特征,我们同时在
$ \mathbf S^\prime = \text{LayerNorm}\left(\mathbf S + \text{Dropout}(\mathbf S)\right)\\ \mathbf F = \text{LayerNorm}\left(\mathbf S^\prime+\text{Dropout}\left(\text{LeakyReLU}\left(\mathbf S^\prime \mathbf W^{(1)}+b^{(1)}\right)\mathbf W^{(2)} + b^{(2)}\right)\right) $self-attention
和FFN
中使用dropout
和LeakyReLU
。然后self-attention layer
和FFN layer
的总输出为:其中:
- $ \mathbf W^{(1)},\mathbf W^{(2)},b^{(1)},b^{(2)} $ 为可学习的参数。
- $ \text{LayerNorm} $ 为标准的
normalization layer
。
$ \mathbf S^{(k)} = \text{MH}\left(\mathbf F^{(k-1)}\right)\\ \mathbf F^{(k)} = \text{FFN}\left(\mathbf S^{(k)}\right) $Stacking the self-attention blocks
:在第一个self-attention block
之后,它会聚合所有历史item
的embedding
。为了进一步建模底层item
序列的复杂关系。我们堆叠了 $ K $self-attention building block
,其中第 $ k $ 个block
定义为:实践中我们观察到 $ K=1 $ 可以获得比 $ K=2,3 $ 更好的性能。为了提高效率,我们并未尝试更大的 $ K $ ,并把这个留给以后的工作。
21.1.3 MLP Layer & Loss Function
我们将
Other Features
的embedding
和应用于target item
的Transformer layer
的输出进行拼接,然后使用三个全连接层来进一步学习这些dense features
之间的交互。这是工业推荐系统的标准做法。为了预测用户是否点击
target item
$ v_t $ ,我们将其建模为一个二类分类问题,因此使用sigmoid
函数作为输出单元。为了训练模型,我们使用交叉熵损失函数:
$ \mathcal L = -\frac {1}{|\mathcal D|}\sum_{\left(\mathbf{\vec x},y\right)\in \mathcal D}[y\log p\left(\mathbf{\vec x}\right)+(1-y)\log\left(1-p\left(\mathbf{\vec x}\right)\right) ] $其中:
- $ \mathcal D $ 代表所有样本的训练集。
- $ y\in \{0,1\} $ 代表是否点击的
label
。 - $ p\left(\mathbf{\vec x}\right) $ 为网络经过
sigmoid
单元之后的输出,代表样本 $ \mathbf{\vec x} $ 被点击的概率。
21.3 实验
数据集:数据集是根据
Taobao App
的日志来构建的。我们根据用户在八天内的行为来构建离线数据集,其中前七天用于训练集、第八天用于测试集。数据集的统计信息如下表所示,可以看到该数据集非常大并且非常稀疏。
baseline
:为了显示BST
的有效性,我们将它和其它两个模型进行比较:WDL
和DIN
。此外,我们通过将序列信息合并到
WDL
(称作WDL(+Seq)
)中来创建baseline
方法,该方法将历史点击item
的embedding
进行均值聚合。我们的框架是在
WDL
的基础上通过使用Transformer
添加序列建模而构建的,而DIN
是通过注意力机制来捕获目标item
和历史点击item
之间的相似性。评估指标:
对于离线结果,我们使用
AUC
得分来评估不同模型的性能。对于在线
A/B test
,我们使用CTR
和平均RT
来评估所有模型。RT
是响应时间response time: RT
的缩写,它是给定query
(即淘宝上来自用户的一个请求)生成推荐结果的时间成本。我们使用平均RT
来衡量在线生产环境中各种效率的指标。
配置:我们的模型是使用
Python2.7
和Tensorflow 1.4
实现的,并且选择了Adagrad
作为优化器。此外,我们在下表中给出了模型参数的详细信息。
实验结果如下表所示,其中
Online CTR Grain
是相对于控制组control group
(即WDL
)。从结果中我们可以看到BST
相比于baseline
的优越性。具体而言:离线
AUC
从0.7734
(WDL
)和0.7866
(DIN
) 提高到0.7894
(BST
)。比较
WDL
和WDL(+Seq)
时,我们可以看到以简单的平均方式结合序列信息的有效性。这意味着BST
在self-attention
的帮助下,具有强大的能力来捕获底层用户行为序列的序列信号。注意:根据我们的实际经验,即使离线
AUC
的收益很小,也可以带来在线CTR
的巨大收益。Google
的研究人员在WDL
中报道了类似的现象。此外,就效率而言,
BST
的平均RT
接近WDL
和DIN
的平均RT
,这保证了在现实世界的大型推荐系统中部署诸如Transformer
之类的复杂模型的可行性。最后,我们还展示了堆叠
self-attention layer
的影响。可以看到 $ b=1 $ 获得最佳的离线AUC
。这可能是由于以下事实:用户行为序列中的序列依赖性并不像机器翻译任务中的句子那样复杂。因此,较少的
block
数量就足以获得良好的性能。在《Self-attentive sequential recommendation》
中报道了类似的观察结果。因此,我们选择 $ b=1 $ 在生产环境中部署BST
,并且仅在下表中报告 $ b=1 $ 的在线CTR
增益。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论