返回介绍

数学基础

统计学习

深度学习

工具

Scala

三十六、InterHAt [2020]

发布于 2023-07-17 23:38:25 字数 80260 浏览 0 评论 0 收藏 0

  1. 现有 CTR 预测模型的架构复杂度和计算复杂度一直在增加,以便学到多个特征的联合效应,即高阶特征(也叫做交叉特征),并获得更好的预测准确性。具体而言,k$ k $ 阶特征指的是一个变量,该变量是原始特征集的一个k$ k $ 阶多项式。深度神经网络由于层数和单元数很多,具有很强的捕获丰富高阶信息的能力。

    然而,不断增长的模型复杂度有两个缺点:可解释性差、效率低。

    • 就可解释性而言,预测过程很难得到合理的解释,因为神经网络层的权重和激活 activation 通常被认为是不可解释的。例如,Wide&DeepWide 组件将叉积变换 cross-product transformation 应用于 feature embedding ,但未能量化和证明其对实际点击率预测性能的有效性。模型预测缺乏令人信服的理由,这给模型的可靠性和安全性蒙上了阴影。

    • 就效率而言,现有方法的效率低,因为深度神经网络的高阶交互特征的生成涉及 DNN 中极其繁重的矩阵计算。例如,xDeepFM 中的 compressed interaction network: CIN 通过一个外积层和一个全连接层来计算第(k+1)$ (k+1) $ 阶特征矩阵,这需要 embedding 维度的立方复杂度。Wide&deep 中的 Deep 组件具有多个全连接层,其中每个全连接层都涉及矩阵乘法。

      在实际应用中,效率问题是普遍而关键的。利用现有方法,学习大量现有特征、或新兴特征的 representation 在计算上可能是难以处理的。

    除了可解释性和效率问题,论文 《Interpretable Click-Through Rate Prediction through Hierarchical Attention》 还指出了另一个障碍:模型会影响重要的交叉特征的评估。不同的交叉特征可能对 CTR 具有冲突的影响,必须全面分析。例如,电影推荐记录 movie.genre = horror, user.age = young, time = 8am 具有冲突的因素:前两者的组合鼓励点击,而后两者的组合抑制点击(因为电影观看通常发生在晚上)。这种冲突问题是由特征交互在不同语义子空间中的多义性引起的。在这个例子中,当user.age=young 与两个不同的属性 movie.genretime 组合时,user.age 的多义性交互对 CTR 产生相反的影响。然而,这个问题在很大程度上被现有的方法所忽略。

    为了解决上述问题,在论文 《Interpretable Click-Through Rate Prediction through Hierarchical Attention》 中,该论文提出了一个 Interpretable CTR prediction model with Hierarchical Attention: InterHAt 模型。InterHAt 模型以端到端的方式有效地学习不同阶次的显著特征作为解释性的洞察,并同时准确地预测 CTR

    具体而言,InterHAt 通过一种新颖的 hierarchical attention 机制显式地量化任意阶次的特征交互的影响,聚合重要的特征交互以提高效率,并根据学到的特征显著性来解释推荐决策。与 《Hierarchical attention networks for document classification》 的研究语言的 hierarchy (单词和句子)的 hierarchical attention network 不同,InterHAt 对特征阶次采用 hierarchical attention ,高阶特征是在低阶特征的基础上生成的。

    为了适应特征交互在不同语义子空间中的多义性,InterHAt 利用具有multi-head self-attentionTransformer 来全面研究不同的潜在特征交互。作者利用 Transformer 来检测特征交互的复杂多义性,并学习一个多义性增强的 feature list ,该列表用作 hierarchical attention layer 的输入。

    论文贡献如下:

    • 论文提出使用 InterHAt 进行 CTR 预测。具体而言,InterHAt 采用 hierarchical attention 来精确定位对点击有很大贡献的重要的单个特征、或不同阶次的交互特征。然后,InterHAt 可以基于各阶特征交互为 CTR 预测组成 attention-based 解释。
    • InterHAt 利用具有 multi-head self-attentionTransformer ,从而在不同潜在语义子空间中彻底分析特征之间可能的交互关系。据作者所知,InterHAt 是第一个方法使用具有 multi-head self-attentionTransformer 来学习潜在特征的多义性,从而以进行 CTR 预测。
    • InterHAt 预测 CTR 时无需使用需要大量计算成本的深层 MLP 。相反,它聚合了特征,因此节省了枚举指数级数量的特征交互的指开销。因此,它在处理高阶特征方面比现有算法更有效。
    • 在三个主要的 CTR 基准数据集( Criteo, Avazu, Frappe )、一个流行的推荐系统数据集( MovieLens-1M )和一个合成数据集上,论文进行了大量的实验来评估 InterHAt 的可解释性、效率和有效性。结果表明,InterHAt 解释了决策过程,在训练时间上实现了巨大的改善,并且仍然具有与 SOTA 的模型相当的性能。
  2. 相关工作:

    • CTR 预测模型:

      • FM 为每个不同特征分配一个d$ d $ 维可训练的 embedding 向量 ,并通过一阶特征和二阶特征的线性组合来进行预测。虽然 FM 可以推广到高阶情况,但高阶 FM 的计算复杂度为指数级,并且浅层架构的模型容量较低。
      • Field-aware Factorization Machine: FFM 假设特征在不同的 field 下可能具有不同的语义,并通过 field-specific feature representation 来扩展 FM 的思想。虽然它获得了比 FM 更好的效果,但是也增加了参数规模和计算量,并且更容易发生过拟合。
      • Attentional Factorization Machine: AFM 通过 attention net 扩展了 FM ,不仅提高了性能,还提高了可解释性。然而,由于 FM 固有的结构限制,AFM 只能学习二阶特征交互。
      • Wide&Deepwide 组件和 deep 组件构成,它们本质上分别是广义线性模型和 MLP 。注意,deep 组件,即 MLP ,破坏了可解释性,因为 layer-wise transformation 是在 unit level 而不是 feature level 进行的,并且单个 unit level 取值不能携带特征的具体的、完整的语义信息。
      • Deep&Cross Network: DCNWide&Deep 略有不同,因为 DCN 用叉积变换取代了线性模型,从而将高阶信息与非线性深度特征相结合。
      • DeepFM 通过用 FM 作为 wide 组件来改进这两个模型,其中 deep MLP 组件捕获高阶特征交互,wide FM 捕获二阶特征交互。
      • xDeepFM 声称 MLP 实际上是建模隐式特征交互,因此作者引入 compressed interaction network: CIN 来建模显式特征交互。
      • 工业实践的最新成果包括 DINDIEN,它们分别建模用户的静态购物兴趣和动态购物兴趣。这两种方法都严重依赖于深度前馈网络,而这种网络通常是不可解释的。

      所有上述 CTR 预测模型都严重依赖于深度神经网络,并实现不断提高的性能。然而,正如一把双刃剑,深度学习算法在可靠性和安全性方面存在潜在风险。隐层的权重和激活 activation 很难解释,输入和输出之间的因果关系是掩藏的、不确定的。它们都没有提供任何 feature-level 的线索来解释为什么这种深度 feature learning 策略会增强或减弱 CTR 性能。

      相反,InterHAtfeature-level 上使用 attention-based 的解释来解决 CTR 预测。也就是说,InterHAt 没有不合理的深度 MLP 模块,并且InterHAt 仅工作在 feature level 上,这也提高了 InterHAt 的效率。

    • attention 机制:attention 机制最初是为 neural machine translation: NMT 提出的,它为源语言和目标语言之间密切相关的单词分配更大的权重,以便在翻译中关注重要的单词。NLP 中另一种形式的 attention 是自注意力,如 Transformer 架构。我们采用注意力机制来解释 InterHAt 模型的 CTR 预测。

36.1 模型

  1. InterHAt 模型的整体架构如下图所示。

    Transformer with Multi-head Self-attention 可以视为是单个交互层的 AutoInt 模型。实验部分表明,该组件很重要,移除该组件会导致模型性能较大的下降。但是,实验部分并没有比较 InterHATAutoInt 的比较,因为二者都宣称是可解释的,并且 InterHATAutoInt 作为组件。

    Attentional Aggregation Layer 通过自注意力机制来获得不同阶次的、聚合所有 field 信息的 representation 向量,并将其用于预测和可解释。

  2. Embedding Layer:输入特征包含一组 fieldF$ \mathcal F $ ,每个 fieldfF$ f\in \mathcal F $ 要么是 categorical 的、要么是 numerical 的。

    • 对于 categorical field ,每个 categorical valuev$ v $ 被分配一个可训练的d$ d $ 维 embeddingev(f)Rd$ \mathbf{\vec e}_v^{(f)}\in \mathbb R^d $ 。令 categorical fieldfF$ f\in \mathcal F $ 的取值为v$ v $ ,则该 field 的的 representationx(f)$ \mathbf{\vec x}^{(f)} $ 就是v$ v $ 的 emebdding ,即x(f)=ev(f)$ \mathbf{\vec x}^{(f)} = \mathbf{\vec e}_v^{(f)} $ 。
    • 对于 numerical field ,我们为每个 field 分配一个可训练的d$ d $ 维 embedding 。令vf$ v_f $ 为数值 fieldfF$ f\in \mathcal F $ 的归一化值,e(f)Rd$ \mathbf{\vec e}^{(f)}\in \mathbb R^d $ 为该 field 分配的 embedding,那么该 fieldrepresentationx(f)=vf×e(f)$ \mathbf{\vec x}^{(f)}=v_f\times \mathbf{\vec e}^{(f)} $ 。

    考虑所有的 field ,定义初始的 input representation matrix 为:

    (26)X0=(x0(1),x0(2),,x0(m))Rm×d

    其中:m=|F|$ m=|\mathcal F| $ 为 field 数量。

  3. Multi-head Transformer:在 CTR 预测任务重,我们将特征朝着不同极性(消极或积极)的协同效应(即,特征交互)定义为多义性 polysemy 。因此,我们为 InterHAt 采用了一个 Multi-head Transformer 从而捕获丰富的 pair-wise 特征交互,并且学习不同语义子空间中特征交互的多义性。

    给定输入矩阵X0$ \mathbf X_0 $ ,Transformer headi$ i $ 的 representationHi$ \mathbf H_i $ 被定义为:

    (27)Hi=softmaxi(QKdk)VRm×dkQ=X0Wi(Q),K=X0Wi(K),V=X0Wi(V)

    其中:Wi(Q),Wi(K),Wi(V)Rd×dK$ \mathbf W_i^{(Q)}, \mathbf W_i^{(K)}, \mathbf W_i^{(V)}\in \mathbb R^{d\times d_K} $ 为投影矩阵,dk$ d_k $ 为第i$ i $ 个 head 的维度。

    hidden featureHi$ \mathbf H_i $ 的组合构成了 augmented representation matrixX1$ \mathbf X_1 $ ,该矩阵保留了每个特征的固有信息和多义信息。我们拼接{Hi}$ \{\mathbf H_i\} $ ,然后馈入到一个带 ReLU 的前馈层从而学习非线性:

    (28)X1=ReLU(FeedForward([H1;H2;;Hh]Wm))Rm×d

    其中:WmR(hdk)×d$ \mathbf W_m\in \mathbb R^{(hd_k)\times d} $ ,h$ h $ 为 head 数量,“;$ ; $ ” 表示矩阵拼接(沿着 embedding 维度)。

  4. Hierarchical Attentionaugmented representation matrixX1$ \mathbf X_1 $ 作为 hierarchical attention layer 的输入。hierarchical attention layer 学习特征交互并同时产生解释。然而,由于组合爆炸,通过枚举所有可能的组合来计算高阶 multi-feature interaction 是昂贵的。因此,我们在计算更高阶次的特征交互之前,首先聚合当前阶次的特征交互。即,为了生成第(i+1)$ (i+1) $ 阶的交叉特征Xi+1$ \mathbf X_{i+1} $ ,我们首先将第i$ i $ 阶的交叉特征Xi=(xi(1),xi(2),,xi(m))$ \mathbf X_i=\left(\mathbf{\vec x}_i^{(1)},\mathbf{\vec x}_i^{(2)},\cdots,\mathbf{\vec x}_i^{(m)}\right) $ 聚合到向量ui$ \mathbf{\vec u}_i $ :

    (29)ui=AttentionalAgg(Xi)=j=1mαi(j)xi(j)αi(j)=exp(ciReLU(Wixi(j)))jFexp(ciReLU(Wixi(j)))

    其中:αi(j)R$ \alpha_i^{(j)} \in \mathbb R $ 为第j$ j $ 个 field 在第i$ i $ 个 attentional aggregation layer 的注意力权重;WiRs×d$ \mathbf W_i\in \mathbb R^{s\times d} $ 为 layer weightciRs$ \mathbf{\vec c}_i\in \mathbb R^s $ 为上下文向量;s$ s $ 为注意力空间大小。这里也可以采用其它注意力机制,如 gated attention mechanism

    这里采用的是自注意力机制。

    然后我们根据ui$ \mathbf{\vec u}_i $ (代表了Xi$ \mathbf X_i $ )和X1$ \mathbf X_1 $ 来计算Xi+1$ \mathbf X_{i+1} $ :

    (30)xi+1(j)=uix1(j)+xi(j)

    其中:$ \circ $ 表示 Hadamard product

    根据xi+1(j)=uix1(j)+xi(j)=j=1mαi(j)×(xi(j)x1(j))+xi(j)$ \mathbf{\vec x}_{i+1}^{(j)} = \mathbf{\vec u}_i\circ \mathbf{\vec x}_{1}^{(j)} + \mathbf{\vec x}_{i}^{(j)} = \sum_{j^\prime=1}^m \alpha_i^{(j^\prime)}\times \left(\mathbf{\vec x}_{i}^{(j^\prime)}\circ\mathbf{\vec x}_{1}^{(j)}\right) + \mathbf{\vec x}_{i}^{(j)} $ ,则第i+1$ i+1 $ 层的第j$ j $ 个特征xi+1(j)$ \mathbf{\vec x}_{i+1}^{(j)} $ 是由两部分组成:

    • i$ i $ 层的第j$ j $ 个特征xi(j)$ \mathbf{\vec x}_{i}^{(j)} $ ,这是残差连接。
    • 1 层的第j$ j $ 个特征x1(j)$ \mathbf{\vec x}_{1}^{(j)} $ 与所有第i$ i $ 层特征的交叉的加权和,权重为第i$ i $ 层的 self-attention 的权重。

    那么,是否可以用x1(j)$ \mathbf{\vec x}_1^{(j)} $ 作为 query 向量从而用传统的注意力机制来计算αi(j)$ \alpha_i^{(j^\prime)} $ ?

    最后,模型预测时利用的是ui$ \mathbf{\vec u}_i $ 而不是xi(j)$ \mathbf{\vec x}_{i}^{(j)} $ 。

    通过一系列的 attentional aggregation layer ,我们得到了从第 1 ~ k 阶的交叉特征。这些层组成了一个 hierarchy,表示从低阶到高阶所抽取的特征。

    最后,我们联合所有的 attentional aggregationU=(u1,u2,,uk)$ \mathbf U = \left(\mathbf{\vec u}_1,\mathbf{\vec u}_2,\cdots,\mathbf{\vec u}_k\right) $ 来预测点击率。U$ \mathbf U $ 收集了k$ k $ 阶的所有的组合特征的语义。

  5. 目标函数和优化:最终的预测函数为y^=g(U)$ \hat y = g(\mathbf U) $ :

    (31)y^=g(U)=sigmoid(MLP(uf))uf=AttentionalAgg(U)=j=1kαf(j)ujαf(j)=exp(cfReLU(Wfuj))j=1kexp(cfReLU(Wfuj))

    其中:αf(j)R$ \alpha_f^{(j)}\in \mathbb R $ 为uj$ \mathbf{\vec u}_j $ 的聚合权重;cf,Wf$ \mathbf{\vec c}_f, \mathbf W_f $ 为待学习的参数。

    目标函数为交叉熵:

    (32)L(Θ)=(tD[ytlogy^t(1yt)log(1y^t)])+λ||Θ||2

    其中:D$ \mathcal D $ 为训练集,Θ$ \Theta $ 为所有的训练参数,λ$ \lambda $ 为 L2 正则化系数。

    我们采用 Adam 优化器来优化目标函数。

  6. 可解释性:我们使用注意力分布(α1,α2,,αk,αf)$ \left(\vec \alpha_1,\vec \alpha_2,\cdots,\vec \alpha_k,\vec \alpha_f\right) $ 作为理解 CTR 预测结果的重要因素,其中:

    • αf=(αf(1),αf(2),,αf(k))$ \vec\alpha_f = \left(\alpha_f^{(1)},\alpha_f^{(2)} ,\cdots,\alpha_f^{(k)} \right) $ 为 final attentional aggregation layer 的注意力分布,其中的 top 权重确定了那些阶次的交叉特征Xi$ \mathbf X_i $ 对于预测结果最重要。
    • αi=(αi(1),αi(2),,αi(m)),1ik$ \vec\alpha_i = \left(\alpha_i^{(1)},\alpha_i^{(2)} ,\cdots,\alpha_i^{(m)} \right), 1\le i\le k $ 为第i$ i $ 个 attentional aggregation layer 的注意力分布,其中的 top 权重决定了哪些单个 feature fieldxi(j)$ \mathbf{\vec x}_i^{(j)} $ 对于交叉特征Xi$ \mathbf X_i $ 最重要。

    注意,注意力机制仅突出了特征的显著性,因此不期望它生成完全人类可读的解释。

    最后,根据上述步骤,我们可以识别不同阶次的所有特征。对点击行为的解释是通过逐层地、逐阶次地识别显著特征来解释的。

36.2 实验

  1. 数据集:Criteo, Avazu, Frappe 。下表展示了数据集的统计信息,其中训练集/验证集/测试集的大小之比为 8:1:1

  2. baseline 方法:

    • FM:通过一阶特征和二阶特征(feature embedding 向量的内积)的线性组合来进行预测 CTR
    • Wide&Deep:广义线性模型和 deep MLPensemble
    • DCN:用于计算高阶特征的 cross-product transformation 、以及 deep MLPensemble
    • PNN:基于乘积的方法,它的架构由简单的内积、外积、以及非线性激活函数所组成。
    • DeepFMFMdeep MLP 的组合。
    • xDeepFM:显式建模特征交互的compress information network: CIN 、以及 deep MLP 的组合。
  3. 评估指标:Logloss, AUC

  4. 实现:InterHAt 是通过 Python 3.7 + TensorFlow 1.12.0 实现的,在单个 16GB Nvidia Tesla V100 GPU 上运行。默认的超参数如下:

36.2.1 实验结果

  1. 效率测试:下图展示了在 CriteoAvazu 上不同模型之间的运行时间比较。 Frappe 不用于效率测试,因为它的数据集规模相对较小。FM 不参与比较,因为只有 CPU-based 实现可用,而其它模型都是 GPU-based 的。y 轴显示了在五个训练 epoch 内,每个 epoch 的平均运行时间。可以看到:InterHAt 在每个 epoch 上的训练时间最短,表现出了出色的效率。

    InterHAt 的两个性质实现了巨大的加速:

    • 跨所有特征的 attentional aggregation 操作通过避免在k$ k $ 阶中枚举所有可能的特征组合,将问题规模从指数级降低到线性级。
    • baseline 模型中使用的 deep MLP 相比,IntarHAt 中仅涉及 shallow MLP 。深度神经网络由于庞大的参数规模而大大降低了计算速度。

  2. 效果测试:不同模型的效果比较如下表所示。可以看到:

    • InterHAtFrappeAvazu 数据集的所有两个指标上都优于所有模型,并在 Criteo 数据集上获得了可比的性能。然而,InterHAt 的结构更简单。
    • InterHAt-S 指的是 InterHAt 的变体,它移除了 multi-head self-attention 模块。InterHAt-S 性能的下降证明了 Multi-head Transformer 的贡献。

    InterHAtCriteo 数据集上稍差的原因是:

    • 相比比 AvazuFrappe 数据集,Criteo 的特征在语义上更复杂。best baseline 模型使用不可解释的深度全连接层来捕获复杂的隐式信息并提高性能。然而,InterHAt 没有使用损害可解释性的深度全连接层。

    • 此外,当前的 field-aware embedding 策略( numerical field 仅有单个 embedding )破坏了 numerical-numericalcategorical-numerical 特征交互的能力。我们把对适当的 feature representation 方案的探索留给未来的工作。

      可以考虑和 AutoDis 结合,从而自动离散化 numerical feature

  3. Transformer head 数量的敏感性:下图给出了不同 head 数量的 InterHAt 的效果。我们将 head 数量从 1 增加到 12 ,保持其他 setting 不变,并训练模型直到收敛。可以看到:

    • 对于 CriteoAvazu 数据集,最佳 head 数量分别为 84
    • 对于 Frappe 数据集,最佳 head 数量为 1

    这与我们的观察一致,即 Frappe field 的语义彼此隔离,没有任何潜在的交互(即,每个 field 只有一个语义空间)。

    研究结果证明了复杂数据集的样本中存在特征多义性,并证明了 multi-head Transformer 的有用性。

    随着 head 数量的增加,模型性能会因过度参数化而下降。

36.2.2 可解释性

  1. 在得到 CTR 预测的同时,我们也得到了解释,这是 InterHAt 的主要贡献之一。这里我们通过可视化学到的、显著的低阶特征或高阶特征来演示可解释性。然而,CriteoAvazu 数据集中,field 内容因为隐私保护问题而被加密,这使得无法证明由 InterHAt 构造的解释是否合理。为此,我们使用一个真实数据集、以及一个人工合成的数据。

  2. 真实数据集:MovieLens-1M 数据集,具有明文属性。每个样本都有用户画像、电影属性、以及 1~5 的评级。用户画像包括年龄、性别、职业,电影属性包括发型年份、电影风格(18 种风格)。我们将评分动作视为点击,即 label = 1 的正样本,然后通过随机采样 (movie, user) pair 来创建与正样本数量相同的负样本。正样本和负样本没有重叠。

    我们绘制了从一阶到三阶注意力权重的热力图,即{α1,α2,α3}$ \{\vec\alpha_1,\vec\alpha_2,\vec\alpha_3\} $ 。我们选择k=3$ k=3 $ ,因为我们发现更高阶的特征中绝大多数是不重要的。由于篇幅有限,我们没有αf$ \vec\alpha_f $ 的结果。我们选择用于可视化的i$ i $ 阶的样本,在它们各自的αf$ \vec\alpha_f $ 中具有最大的αf(i)$ \alpha_f^{(i)} $ 。

    Figure 5/6/7 中,深色的 cell 表示 InterHAt 学到的更大的特征重要性。横轴为电影流派,被简写为三个字母。在 Raw genre 行,黑色的 cell 表示输入数据中包含对应的电影派别属性。

    • Figure 5 显示了对电影《终结者》( 1984 ) 的可解释结果,该样本在αf$ \vec\alpha_f $ 中具有相对最大的αf(1)$ \alpha_f^{(1)} $ (一阶特征最重要)。
    • Figure 6 显示了对电影《Léon: The Professional (1994) 》 的可解释结果,该样本在αf$ \vec\alpha_f $ 中具有相对最大的αf(2)$ \alpha_f^{(2)} $ (二阶特征最重要)。
    • Figure 7 显示了对电影《玩具总动员2 》(1999) 的可解释结果,该样本在αf$ \vec\alpha_f $ 中具有相对最大的αf(3)$ \alpha_f^{(3)} $ (三阶特征最重要)。

  3. 人工合成数据集:考虑到 MovieLens-1M 是评级数据而不是点击数据,我们使用人工合成的点击数据集。合成数据包含 10fieldF=[f1,,f10]$ \mathcal F=[f_1,\cdots,f_{10}] $ ,每个 field 是独立创建的,并且取值空间全部都是[β1,,β10]$ [\beta_1,\cdots,\beta_{10}] $ 。label 根据 feature group 来决定,其中 feature group 如下表所示:

    (33)Prob(y=1|F,G)={p1,iffiG,value(fi)=βip2,otherwise

    例如,对于第二条规则,当条件value(f3)=β3,value(f4)=β4$ \text{value}(f_3) = \beta_3, \text{value}(f_4) = \beta_4 $ 时, label 取值为 1 的概率为1p1$ 1-p_1 $ 。否则 label 取值为 1 的概率为1p2$ 1-p_2 $ 。我们将p1$ p_1 $ 设置为 0.9p2$ p_2 $ 设置为 0.2

    评估结果如下图所示。我们通过每一层中注意力的热力图来呈现显著的特征。以下热图中第i$ i $ 阶的每个 cell 表示满足 Table 4 中的i$ i $ 阶规则的所有记录中,各层的 aggregation attentionα$ \vec\alpha $ 的归一化平均值。

    • Figure 8 给出了所有样本的一阶热力图。我们观察到:

      • f1$ f_1 $ 的注意力最大,这与 Rule 1 一致。
      • 此外,来自注意力的方差较小,这意味着仅使用一阶交互进行学习和预测时,稳定性较差。
    • Figure 9 给出了所有样本的二阶热力图。我们观察到f3,f4$ f_3,f_4 $ 的注意力最大,这与 Rule 2 一致。

    • Figure 10 给出了所有样本的一阶到四阶热力图。我们观察到:

      • 在前三阶中,f5,f6,f7$ f_5,f_6,f_7 $ 的注意力最大。
      • 在第四阶,所有 field 具有均匀的注意力分布。这表明数据集中不存在更高阶的特征。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文