二十三、ESM2 [2019]

发布于 2023-07-17 23:38:25 字数 31350 浏览 0 评论 0 收藏 0

从互联网上大量可用的options 中为用户发现有价值的产品或服务已经成为现代在线 application （如电商、社交网络、广告等等）的基本功能fundamental functionality 。推荐系统Recommender System 可以起到这个作用，为用户提供准确accurate 、及时timely 和个性化personalized 的服务。下图显示了电商平台中在线推荐的架构。它包含两个基础部分 fundamental component，即系统推荐system recommendation 和用户反馈user feedback 。
- 在分析了用户的长期行为long-term behavior和短期行为short-term behavior之后，推荐系统首先召回了大量相关 related 的 item。然后，根据几种排序指标 ranking metrics （例如点击率Click-Through Rate: CTR、转化率Conversion Rate: CVR 等等）对召回的 item 进行排序并向用户展示。
- 接下来，当浏览推荐的item 时，用户可能会点击并最终购买感兴趣的 item。这就是电商交易中的典型的用户行为序列路径 user sequential behavior path “曝光impression--> 点击click --> 购买purchase”。
推荐系统收集了用户的这些反馈，并将其用于估计更准确的排序指标，这对于下一轮生成高质量的推荐确实非常关键。这里，本文重点关注后点击post-click 的 CVR 估计 estimation任务。
但是，CVR 估计中的两个关键问题使得该任务相当具有挑战性，即样本选择偏差sample Selection Bias: SSB和数据稀疏性Data Sparsity: DS。
- SSB 指的是训练空间和推断空间之间数据分布的系统性差异systematic difference 。即：常规的 CVR 模型仅在点击的样本上进行训练，但是在所有曝光样本上进行推断inference 。
  直觉地，点击样本仅仅是曝光样本的一小部分，并且受到用户 self-selection （如用户点击）的偏见biased 。因此，当 CVR 模型在线 serving 时，SSB 问题将降低其性能。
- 此外，由于和曝光样本相比，点击样本相对更少。因此来自行为序列路径 “点击 --> 购买” 的训练样本数量不足以拟合CVR 任务的大的参数空间，从而导致 DS 问题。
如下图所示说明了传统CVR 预估中样本选择偏差问题，其中训练空间仅由点击样本组成，而推断空间是所有曝光样本的整个空间。另外，从曝光到购买，数据量是逐渐减少。
如何处理 SSB 和 DS 问题对于开发高效的工业级推荐系统至关重要。已经有一些研究来应对这些挑战。例如，Entire Space Multi-Task Model: ESMM 模型通过多任务学习框架在用户行为序列路径 “曝光--> 点击 --> 购买” 上定义了 CVR 任务。
- 它使用整个空间上的所有曝光样本进行训练，以完成两个辅助任务auxiliary task（即post-view CTR 和 post-view CTCVR）。因此，当在线推断时，从 CTR 和 CTCVR 导出的 CVR 也适用于相同的整个空间，从而有效地解决了 SSB 问题。
- 此外，CVR 网络和具有丰富标记样本的辅助 CTR 网络共享相同的特征representation，这有助于缓解 DS 问题。
尽管 ESSM 通过同时处理 SSB 和 DS 问题从而获得了比传统方法更好的性能，但是由于购买行为的训练样本很少（根据来自淘宝电商平台的大规模真实交易日志，不到 0.1% 的曝光行为转化为购买），它仍然难以缓解 DS 问题。
在对日志进行详细分析之后，论文《Entire Space Multi-Task Modeling via Post-Click Behavior Decomposition for Conversion Rate Prediction》 发现用户总是在点击之后采取了一些和购买相关的动作purchase-related action 。例如，由于某些原因（如等待折扣），用户可以将青睐的item 添加到购物车（或者 wish list ）中，而不是立即购买。此外，这些行为确实比购物行为更加丰富。有鉴于此，该论文提出了后点击行为分解post-click behavior decomposition 的新思想。
具体而言，在点击和购买之间并行parallel 地插入不相交的购买相关purchase-related 的决定性动作Deterministic Action: DAction、以及购买无关的其它动作 Other Action: OAction ，形成一个新颖的 “曝光 --> 点击 --> D(O)Action --> 购买” 的用户行为序列图 user sequential behavior graph 。其中任务关系由条件概率明确地定义。此外，在这个图上定义模型能够利用整个空间上的所有曝光样本以及来自后点击行为post-click behavior的额外的丰富abundant 的监督信号supervisory signal ，这将有效地共同解决 SSB 和 DS 问题。
在论文《Entire Space Multi-Task Modeling via Post-Click Behavior Decomposition for Conversion Rate Prediction》 中，作者借助深度神经网络来体现上述思想。具体而言，论文提出了一种新颖的深度神经网络推荐模型，称作 Elaborated Entire Space Supervised Multi-task Model: ESM2。ESM2 包含三个模块：共享embedding 模块 shared embedding module: SEM、分解预估模块decomposed prediction module: DPM、序列合成模块sequential composition module: SCM 。
- 首先，SEM 通过线性的全连接层将 ID 类型的 one-hot 特征向量嵌入到dense representation 中。
- 然后，这些 embedding 被馈入到后续的 DPM 中。在该 DPM 中，各个预测子网通过在整个空间上对所有曝光样本进行多任务学习来并行 parallel 预估分解的子目标decomposed sub-target的概率。
- 最后，SCM 根据图上定义的条件概率规则conditional probability rule defined ，依次合成compose最终的 CVR 和一些辅助概率。在图的某些子路径sub-path 上定义的 multiple losses 用于监督 ESM2 的训练。
本文的主要贡献：
- 据我们所知，我们是第一个引入后点击行为分解 post-click behavior decomposition 的思想来在整个空间内对 CVR 建模的。显式分解explicit decomposition 产生了一个新的用户行为序列图 “曝光 --> 点击 --> D(O)Action --> 购买 ”。
- 我们提出了一种名为 ESM2 的新颖的神经推荐方法，该方法根据用户行为图 user behavior graph 上定义的条件概率规则，在多任务学习框架中同时对 CVR 预估任务prediction task 和辅助任务auxiliary task进行建模。
  通过收集大量带标签的的后点击行为数据post-click action data ，ESM2 可以有效解决 SSB 和 DS 问题。
- 我们的模型在现实世界的离线数据集上比典型的 state-of-the-art 方法获得了更好的性能。我们还将其部署在我们的在线推荐系统中，并取得了显著的提升，证明了其在工业应用中的价值。
相关工作：我们提出的方法通过在整个空间上采用多任务学习框架来专门解决 CVR 预估问题。因此，我们从以下两个方面简要回顾了最相关的工作：CVR 预估、多任务学习。
- CVR 预估：CVR 预估是许多在线应用的关键组成部分，例如搜索引擎search engines 、推荐系统recommender systems 、在线广告online advertising 。然而，尽管最近 CTR 方法得到了蓬勃发展，很少提出针对 CVR 任务的文献。事实上，CVR 建模是非常具有挑战性的，因为转化行为是极为罕见的事件，只有极少量的曝光item 最终被点击和购买。
  近年来，由于深度神经网络在特征 representation 和端到端建模end-to-end modeling 方面的卓越能力，因此在包括推荐系统在内的许多领域都取得了重大进展。在本文中，我们也采用了深度神经网络对 CVR 预估任务prediction task 进行了建模。与上述方法相比，我们基于一种新颖的后点击行为分解post-click behavior decomposition 思想，提出了一个新颖的用户行为序列图 “曝光 --> 点击 --> D(O)Action--> 购买 ” 。根据图中定义的条件概率规则，我们的网络结构经过专门设计，可以并行预测parallel 几个分解的子目标decomposed sub-target，并依次合成从而形成最终的 CVR 。
- 多任务学习：由于用户的购买行为在时间上具有多阶段性multi-stage nature，如曝光、点击、购买，先前的工作试图通过多任务框架来形式化CVR 预估任务。例如：
  - 《multi-task learning for recommender systems》 通过同时对 ranking 任务和 rating prediction 任务建模，提出了一个基于多任务学习的推荐系统。
  - 《Modeling task relationships in multi-task learning with multi-gate mixture-of-experts》 提出了一种多任务学习方法，称作 multi-gate mixture-of-experts: MMOE，以从数据中明确学习任务关系。
  - 《Neural Multi-Task Recommendation from Multi-Behavior Data》 提出一种神经多任务推荐模型neural multi-task recommendation model 来学习不同类型行为之间的级联关系cascading relationship 。
    相反，我们通过关联associating 用户的序列行为图来同时建模 CTR 和 CVR 任务，其中任务关系由条件概率明确定义。
  - 《Perceive your users in depth: Learning universal user representations from multiple e-commerce tasks》 提出学习跨多个任务的通用用户 representation，以实现更有效的个性化。
    我们也通过跨不同任务共享 embedded 特征来探索这种思想。
  - 最近，《Entire space multi-task model: An effective approach for estimating post-click conversion rate》 提出了用于 CVR 预估的entire space multi-task model: ESMM 模型。它将 CTR 任务和 CTCVR 任务作为辅助任务添加到主 CVR 任务中。
    我们的方法受到 ESMM 的启发，但有以下显著的不同：我们提出了一个新颖的后点击行为分解post-click behavior decomposition 的思想来重构一个新的用户行为序列图 “曝光 --> 点击 --> D(O)Action --> 购买”。通过在这个图上定义模型，可以同时形式化最终的 CVR 任务以及辅助任务auxiliary tasks 。
    我们的方法可以利用整个空间的所有曝光样本以及来自用户后点击行为post-click behaviors 的丰富的监督信号，这些监督信号和购买行为高度相关，因此可以同时解决 SSB 和 DS 问题。

23.1 模型

在实践中，一个item 从曝光到购买，这之间可能存在多种类型的序列动作sequential action 。例如，在点击一个感兴趣的 item 之后，用户可以毫不犹豫的直接购买它，或者将其添加到购物车中然后最终进行购买。这些行为路径如下图 (a) 所示。图(a) 为区分从曝光到购买的、包含后点击行为的多条路径multiple path ，例如 “曝光 --> 点击 --> 添加到购物车 --> 购买” 。
我们可以根据几个预定义的、特定的和购买相关purchase-related 的后点击动作post-click action 来简化和分组这些路径，即添加到购物车Shopping Cart: SCart、添加到愿望清单Wish list: Wish，如下图 (b) 所示。图(b) 为描述简化的购买过程的有向图，其中边上的数字表示不同路径的稀疏性。
根据我们对真实世界在线日志的数据分析，我们发现只有 1% 的点击行为最终会转化为购买行为，这表明购买训练样本很少。然而，SCart 和 Wish 这样的一些后点击动作的数据量远大于购买量。如， 10% 的点击会转化为加购物车。此外，这些后点击动作与最终购买行为高度相关。例如，12% 的加购物车行为会转化为购买行为、31% 的加愿望清单行为会转化为购买行为。
考虑到后点击行为post-click behaviors 和购买行为高度相关，我们如何以某种方式利用大量的后点击行为从而使得 CVR 预估收益？直观地讲，一种解决方案是将购买相关的后点击动作与购买行为一起建模到多任务预测框架multi-task prediction framework中。关键是如何恰当地形式化它们，因为它们具有明确的序列相关性sequential correlation 。例如，购买行为可能是以 SCart 或 Wish 行为为条件的。为此，我们定义了一个名为Deterministic Action: DAction 的单个节点node 来合并这些预定义的、特定的与购买相关的后点击动作，例如 SCart 和 Wish ，如下图 (c) 所示。
DAction 有两个性质：与购买行为高度相关、具有来自用户反馈的丰富的确定性deterministic 的监督信号。例如，1 表示执行某些特定操作（即在点击之后添加到购物车中、或者点击之后添加到愿望清单中），0 表示未执行这些操作。
我们还在点击和购买之间添加了一个名为 Other Action: OAction 的节点，以处理DAction 以外的其它后点击行为。借此方式，传统的行为路径 “曝光 --> 点击 --> 购买” 就变为新颖novel 的、精巧elaborated 的用户行为序列图 “曝光 --> 点击 --> D(O)Action --> 购买”，如下图 (c) 所示。
通过在该图上定义模型，可以利用整个空间上的所有曝光样本以及来自 D(O)Action 的额外的丰富的监督信号，这可以有效地避免 SSB 和 DS 问题。我们称这种新颖的想法为后点击行为分解post-click behavior decomposition 。

23.1.1 条件概率分解

这里我们根据上图 (c) 中定义的有向图来介绍 CVR 的条件概率分解 conditional probability decomposition ，以及相关的辅助任务auxiliary tasks 。
定义 item $ i $ 的 post view ctr $ p_i^{} $ 为：用户浏览到 item $ i $ 的情况下点击它的条件概率。这由有向图中的路径 “曝光 --> 点击” 来描述。从数学上讲，这可以写成：
$ p_i^{
} = p(c_i=1\mid v_i=1) \triangleq y_{1,i} $
其中：
- $ c_i\in \{0,1\} $ 表示 item $ i $ 是否被点击。
- $ v_i\in \{0,1\} $ 表示 item $ i $ 是否浏览。
- $ y_{1,i} $ 是一个简单的替代符号。
定义 item $ i $ 的click-through DAction CVR $ p_i^{} $ 为：用户浏览到 item $ i $ 的情况下执行 DAction 动作的条件概率。这由有向图中的路径 “曝光 --> 点击 --> DAction” 来描述。从数学上讲，这可以写成：
$ p_i^{
} = p(a_i=1\mid v_i=1) \\ =\sum_{c_i\in \{0,1\}}p(a_i=1\mid v_i=1,c_i)\times p(c_i\mid v_i=1)\\ = p(a_i=1\mid v_i=1,c_i=0)\times p(c_i=0\mid v_i=1)\\ +p(a_i=1\mid v_i=1,c_i=1)\times p(c_i=1\mid v_i=1)\\ =p(a_i=1\mid v_i=1,c_i=1)\times p(c_i=1\mid v_i=1)\\ \triangleq y_{2,i}y_{1,i} $
其中：
- $ a_i\in \{0,1\} $ 表示 item $ i $ 是否被执行 DAction 动作。
- 这里假设：如果用户未点击item $ i $ ，则不会发生下一步的 DAction 动作。即：
  $ p(a_i=1\mid v_i=1,c_i=0) = 0 $
- $ y_{2,i} = p(a_i=1\mid v_i=1,c_i=1) $ 表示路径 “点击 --> DAction” 。
  考虑到点击（ $ c_i=1 $ ）一定意味着浏览（ $ v_i=1 $ ），因此 $ y_{2,i} $ 简化为：
  $ y_{2,i} = p(a_i=1\mid c_i=1) $
定义 item $ i $ 的CVR $ p_i^{} $ 为：在用户已点击item $ i $ 的条件下购买item $ i $ 的条件概率。这由有向图中的路径 “点击 --> D(O)Action --> 购买” 来描述。从数学上讲，这可以写成：
$ p_i^{
}=p(b_i=1\mid c_i=1) \\ = \sum_{a_i\in \{0,1\}}p(b_i=1\mid c_i=1,a_i)\times p(a_i\mid c_i=1)\\ =p(b_i=1\mid c_i=1,a_i=0)\times p(a_i=0\mid c_i=1)\\ +p(b_i=1\mid c_i=1,a_i=1)\times p(a_i=1\mid c_i=1)\\ \triangleq y_{4,i}(1-y_{2,i})+y_{3,i}y_{2,i} $
其中：
- $ b_i\in \{0,1\} $ 表示 item $ i $ 是否被购买。
- $ y_{3,i} = p(b_i=1\mid c_i=1,a_i=1) = p(b_i=1\mid a_i=1) $ 表示有向图中的路径 “ DAction -> 购买” 。这里我们假设DAction （ $ a_i=1 $ ）一定意味着点击（ $ c_i=1 $ ）。
- $ y_{4,i} = p(b_i=1\mid c_i=1,a_i=0)= p(b_i=1\mid a_i=0) $ 表示有向图中的路径 “ OAction -> 购买” 。这里我们假设OAction （ $ a_i=0 $ ）一定意味着点击（ $ c_i=1 $ ）。
定义 item $ i $ 的 click-through CVR 为 $ p_i^{} $ 为：用户浏览到 item $ i $ 的情况下购买它的概率。这由有向图中的路径 “曝光 --> 点击 --> D(O)Action --> 购买” 来描述。从数学上讲，这可以写成：
$ p_i^{} = p(b_i=1\mid v_i=1) \\ = \sum_{c_i}p(b_i=1\mid v_i=1,c_i)\times p(c_i\mid v_i=1)\\ =\sum_{c_i}\sum_{a_i}p(b_i=1\mid v_i=1,c_i,a_i)\times p(a_i\mid v_i=1,c_i)\times p(c_i\mid v_i=1) $
考虑到如果没有点击就没有任何购买，即：
$ \forall a_i\in \{0,1\}:\quad p(b_i=1\mid v_i=1,c_i=0,a_i) = 0 $
则上式简化为：
$ p_i^{} = p(b_i=1\mid v_i=1) \\ = \sum_{a_i}p(b_i=1\mid c_i=1,a_i)\times p(a_i\mid c_i=1)\times p(c_i=1\mid v_i=1)\\ = y_{1,i}\times [y_{4,i}(1-y_{2,i})+y_{3,i}y_{2,i}] $
因此，上式可以通过将有向图 “曝光 --> 点击 --> D(O)Action --> 购买” 分解为 “曝光 --> 点击”、以及 “点击 --> D(O)Action --> 购买”，并根据链式法则 chain rule整合之前所有的公式（即 $ p_i^{} = p_i^{}\times p_{i}^{} $ ）从而得出。

23.1.2 ESM2 模型

从前面推导可以看到： $ p_i^{},p_i^{},p_i^{} $ 可以从四个隐概率变量hidden probability variable $ y_{1,i},y_{2,i},y_{3,i},y_{4,i} $ 中推导而来。每个隐概率变量代表有向图中某个子路径sub-path 上的条件概率，其中：
- $ y_{1,i} $ 表示 “曝光 --> 点击“ 的条件概率。
- $ y_{2,i} $ 表示 “点击 --> DAction“ 的条件概率。
- $ y_{3,i} $ 表示 “ DAction -> 购买” 的条件概率。
- $ y_{4,i} $ 表示 “ OAction -> 购买” 的条件概率。
此外，这四个子目标 sub-target 在整个空间中定义，并且可以使用所有曝光样本进行预测。以 $ y_{2,i} $ 为例，仅使用点击样本直接训练 $ y_{2,i} $ 会遇到 SSB 问题。实际上根据前面的推导， $ y_{2,i} $ 是从 $ p_i^{} $ 和 $ p_i^{} $ 派生的中间变量intermediate variable 。由于 $ p_i^{} $ 和 $ p_i^{} $ 都是使用所有曝光样本在整个空间上建模的，因此派生的 $ y_{2,i} $ 也适用于整个空间，因此在我们的模型中没有 SSB 。
另一方面，给定用户的日志， $ p_i^{},p_i^{},p_i^{} $ 的 ground truth label 是可用的，这些 label 可用于监督这些子目标。
因此，一种直观的方法是通过多任务学习框架同时对它们进行建模。为此，我们提出了一种新颖的深度神经推荐模型neural recommendation model，称作Elaborated Entire Space Supervised Multi-task Mode: ESM2 ，用于CVR 预估。ESM2 之所以取这个名字是因为：
- 首先， $ p_i^{},p_i^{},p_i^{} $ 是在整个空间上建模，并使用所有曝光样本进行预测。
- 其次，派生的 $ p_i^{} $ 也受益于整个空间的多任务建模。这将在实验部分得到验证。
ESM2 由三个关键模块组成：
- 一个共享的 embedding 模块Shared Embedding Module: SEM。
  SEM 将稀疏特征嵌入到稠密的 representation 中。
- 一个分解decomposed 的预估模块Decomposed Prediction Module: DPM。
  DPM 可以预估分解目标的概率。
- 一个顺序sequential 的合成composition 模块Sequential Composition Module: SCM。
  SCM 将预估分解目标的概率按顺序合成在一起，以计算最终的 CVR 以及其它相关的辅助任务（即 CTR、CTAVR、CTCVR ）。
整体模型如下图所示。
共享的 embedding 模块：首先我们设计一个共享的 embedding 模块，从而嵌入来自user field、item field、user-item cross field 的所有稀疏ID 特征和稠密数值特征。
- 用户特征包括 user ID、年龄、性别、购买力等等。
- item 特征包括 item ID、价格、历史日志统计的历史累计CTR 和历史累计 CVR 等等。
- user-item 特征包括用户对 item 的历史偏好分historical preference score 等等。
- 稠密特征首先基于它们的边界boundary 来离散化，然后将其表示为one-hot 向量。
令第 $ i $ 个样本第 $ j $ 个特征为 $ f_{i,j} $ ，进行 one-hot 之后为 $ \mathbf{\vec f}_{i,j} $ 。第 $ i $ 个样本的 one-hot 特征为：
$ \mathbf{\vec f}_i = \text{concat}\left(\mathbf{\vec f}_{i,1},\cdots,\mathbf{\vec f}_{i,m}\right) $
其中 $ m $ 为特征数量。
由于 one-hot 编码的稀疏性，我们使用线性的全连接层将它们嵌入到 dense representation 中。令第 $ j $ 个特征的 embedding 矩阵为 $ \mathbf P_j $ ，则第 $ i $ 个样本第 $ j $ 个特征的 embedding 为：
$ \mathbf{\vec g}_{i,j} = \mathbf P_j^\top \mathbf{\vec f}_{i,j} $
第 $ i $ 个样本的 embedding 特征为：
$ \mathbf{\vec g}_i = \text{concat}\left(\mathbf P_1^\top \mathbf{\vec f}_{i,j1},\cdots,\mathbf P_m^\top \mathbf{\vec f}_{i,m}\right) $
分解预估模块：然后一旦获得了所有的特征 embedding，就将这些 embedding 拼接到一起，馈入几个分解的预估模块，并由每个模型共享。DPM 中的每个预估网络分别在 “曝光 --> 点击”、“点击 --> DAction”、“DAction --> 购买”、“OAction --> 购买” 等路径上预估分解的 target 的概率。
在本文中，我们采用多层感知机Multi-Layer Perception: MLP 作为预估网络。除了输出层之外，所有非线性激活函数均为ReLU。对于输出层，我们使用 Sigmoid 函数将输出映射为 0.0 ~ 1.0 之间的概率值。从数学上讲，这可以写成：
$ y_i^{(k)} = \sigma\left(\varphi^{(k)}_{\theta_k}\left(\mathbf{\vec g}_i\right)\right) $
其中：
- $ \sigma(\cdot) $ 为 sigmoid 函数。
- $ \varphi^{(k)}_{\theta_k}(\cdot) $ 为第 $ k $ 个 MLP 学到的映射函数， $ \theta_k $ 为网络参数。
例如，上图中的第一个 MLP 输出了估计的概率estimated probability $ y_1 $ ，这实际上是post-view CTR 。
顺序合成模块：最后我们设计了一个顺序合成模块，根据前面描述的公式合成上述预估概率，从而计算转化率 $ p^{} $ 和一些辅助的目标auxiliary target（包括post-view CTR $ p^{} $ 、click-through DAction CVR $ p^{} $ 、click-through CVR $ p^{} $ 等等）。
如上图的顶部所示，顺序合成模块是一个无参的前馈神经网络，它表示购买决策有向图purchasing decision digraph 所定义的条件概率。
注意：
- 所有任务共享相同的 embedding，使这些任务使用所有曝光样本进行训练。即在整个空间上对这些任务进行建模，从而在推断阶段不会出现 SSB 问题。
- 轻量级的分解预估模块由共享的 embedding 模块严格正则化，其中共享的 embedding 模块包含了大部分的训练参数。
- 我们的模型提出了一种高效的网络设计，其中共享的 embedding 模块可以并行运行，因此在在线部署时可以有较低的 latency 。
训练目标：令 $ \mathcal D=\left\{(c_i,a_i,b_i;f_i)\right\}\mid_{i=1}^N $ 表示训练集， $ (c_i,a_i,b_i) $ 表示第 $ i $ 个曝光样本的 ground truth label （是否点击、是否发生deterministic action、是否发生购买行为）。然后我们定义所有训练样本的联合 post-view pCTR 为：
$ p^{
} = \prod_{i\in \mathcal C_+}p_i^{
}\prod_{j\in \mathcal C\_}\left(1-p_j^{
}\right) $
其中 $ \mathcal C_+,\mathcal C\_ $ 表示点击 label 空间 $ \mathcal C $ 中的正样本和负样本。
使用负的对数函数进行变换之后，我们得到 $ p^{} $ 的logloss ：
$ \mathcal L_{ctr} = -\sum_{i\in \mathcal C_+} \log p_i^{
} - \sum_{j\in \mathcal C\_}\log \left(1-p_j^{}\right) $
类似地，我们得到 $ p^{} $ 和 $ p^{} $ 的损失函数为：
$ \mathcal L_{ctavr} = -\sum_{i\in \mathcal A_+} \log p_i^{} - \sum_{j\in \mathcal A\_}\log \left(1-p_j^{}\right)\\ \mathcal L_{ctcvr} = -\sum_{i\in \mathcal B_+} \log p_i^{} - \sum_{j\in \mathcal B\_}\log \left(1-p_j^{}\right) $
其中： $ \mathcal A_+,\mathcal A\_ $ 表示 DAction label 空间 $ \mathcal A $ 中的正样本和负样本； $ \mathcal B_+,\mathcal B\_ $ 表示购买label 空间 $ \mathcal B $ 中的正样本和负样本。
最终的训练目标函数为：
$ \mathcal L(\Theta) = w_{ctr}\times \mathcal L_{ctr} +w_{ctavr}\times \mathcal L_{ctavr} +w_{ctcvr}\times \mathcal L_{ctcvr} $
其中：
$ \Theta $ 为 ESM2 模型中的所有参数。
$ w_{ctr},w_{ctavr},w_{ctcvr} $ 分别为 $ \mathcal L_{ctr},\mathcal L_{ctavr},\mathcal L_{ctcvr} $ 损失函数的权重。在本文中我们将这些权重都设置为 1.0 。
需要强调的是：
添加中间损失intermediate loss 来监督分解后的子任务，可以有效地利用后点击行为中丰富的标记数据，从而缓解模型受到 DS 的影响。
所有损失都是从整个空间建模的角度来计算的，这有效解决了 SSB 的问题。

23.2 实验

为了评估 ESM2 模型的有效性，我们针对从现实世界电商场景中收集的离线数据集和在线部署进行了广泛的实验。我们将 ESM2 和一些代表性的 state-of-the-art 方法进行比较，包括 GBDT、DNN、使用过采样over-sampling 思想的 DNN 、ESMM 等。
首先我们介绍评估设置setting，包括数据集准备、评估指标、对比的 SOTA 方法的简要说明、以及模型实现细节。然后我们给出比较结果并进行分析。接着我们介绍消融研究。最后我们对不同的后点击行为进行效果分析。
数据集：我们通过从我们的在线电商平台（世界上最大的第三方零售平台之一）收集用户的行为序列和反馈日志来制作离线数据集。
我们得到超过3 亿个样本，其中包含用户特征、item 特征、user-item 交叉特征以及序列的反馈标签sequential feedback label（如，是否点击、是否DAction、是否购买）。下表给出了离线数据集的统计信息。
我们将离线数据集进一步划分为不相交的训练集、验证集、测试集。
评估指标：为了全面评估ESM2 模型的有效性，并将其和 SOTA 方法进行比较，我们使用三种广泛采纳的指标：AUC、GAUC、F1 score 。
- AUC 刻画了模型的排序能力ranking ability：
  $ \text{AUC} = \frac{\sum_{x^+\in \mathcal D_+}\sum_{x^-\in \mathcal D\_}I\left(\phi(x^+)\gt \phi(x^-)\right)}{|\mathcal D_+|\times |\mathcal D\_|} $
  其中：
  - $ \mathcal D_+ $ 为正样本集合， $ \mathcal D\_ $ 为负样本集合， $ |\mathcal D_+| $ 为正样本数量， $ |\mathcal D\_| $ 为负样本数量。
  - $ \phi(\cdot) $ 为预估函数， $ I(\cdot) $ 为示性函数。
- GAUC 首先根据每个用户ID 从而将数据划分为不同的组，然后在每个组中计算 AUC，最后对每个组的 AUC 加权平均。即：
  $ \text{GAUC} = \frac{\sum_{u}w_u\times \text{AUC}_u}{\sum_uw_u} $
  其中：
  - $ w_u $ 为用户 $ u $ 的权重。在我们离线评估中我们选择为 1。
  - $ \text{AUC}_u $ 为用户 $ u $ 的 AUC 。
- F1 score 定义为：
  $ F_1 = \frac{2\times P\times R}{P +R} $
  其中 $ P $ 为 precision、 $ R $ 为 recall 。
baseline 方法：
- GBDT：梯度提升决策树gradient boosting decision tree: GBDT。它遵循gradient boosting machine: GBM 的思想，能够为回归任务和分类任务提供有竞争力的、高度健壮robust 的、可解释性的方法。本文中，我们将其作为 non-deep learning-based 方法的典型代表。
- DNN：我们还实现了一个深度神经网络baseline 模型，该模型具有和 ESM2 中单个分支相同的结构和超参数。和 ESM2 不同，它是用 “点击 --> 购买” 或者 “曝光 --> 点击” 路径上的样本进行训练，从而分别预估转化率 $ p^{} $ 或点击率 $ p^{} $ 。
- DNN-OS：由于 “曝光 --> 购买” 和 “点击 --> 购买” 路径上的数据稀疏性，很难训练具有良好泛化能力的深度神经网络。为了解决该问题，我们训练一个叫做 DNN-OS 的深度模型，它在训练期间利用了过采样 over-sampling 策略来增加正样本。它具有与上述 DNN 模型相同的结构和超参数。
- ESMM：为了公平地进行比较，我们为 ESMM 使用与上述深度模型相同的主干结构backbone structure 。ESMM 直接在用户序列路径 “曝光 --> 点击 --> 购买” 上对转化率进行建模，而没有考虑和购买相关的后点击行为post-click behavior 。
简而言之：
- 前三种方法分别从 “曝光 --> 点击”、“点击 --> 购买” 路径上的样本来学习预估 $ p^{} $ 和 $ p^{} $ ，然后将二者相乘从而得到曝光转化率 $ p^{} $ 。
- 而对于 ESMM 和我们的 ESM2，则是通过在整个空间上直接建模预估 $ p^{} $ 和 $ p^{} $ 。
实验配置：
- 对于 GBDT 模型，以下超参数是根据验证集 AUC 来选择的：
  - 树的数量为 150。
  - 树的深度为 8。
  - 拆分一个顶点的最小样本量为 20。
  - 每次迭代的样本采样率0.6。
  - 每次迭代的特征采样率为 0.6。
  - 损失函数为 logistic loss 。
- 对基于深度神经网络的模型，它们基于TensorFlow 实现，并使用 Adam 优化器。
  - 学习率为 0.0005，mini-batch size = 1000 。
  - 在所有模型中，使用 logistic loss 。
  - MLP 有5 层，每层的尺寸分别为 512, 256, 128, 32, 2 。
  - dropout 设置为 dropout ratio = 0.5 。
  这些配置（基于深度神经网络的模型）如下表所示。
离线数据集的评估结果如下表所示。可以看到：
- DNN 方法相比较 GBDT 模型在 CVR AUC 、CTCVR AUC、CTCVR GAUC 上分别获得了 0.0242、0.0102、0.0117 的增益。这证明了深度神经网络的强大 representation 能力。
- 和普通的 DNN 不同，DNN-OS 使用过采样策略来解决 DS 问题，从而获得比DNN 更好的性能。
- 对于 ESMM，它针对 “曝光 --> 点击 --> 购买” 路径来建模，从而试图同时解决 SSB 和 DS 问题。得益于对整个空间的建模以及丰富的训练样本，它的性能优于 DNN-OS 。
  尽管如此，ESMM 忽略了后点击行为的影响，仍然受到购买训练样本稀疏的困扰，因此仍然难以解决 DS 问题。
- 我们提出的 ESM2 进一步利用了这些后点击行为。在多任务学习框架下并行预测一些分解的子目标之后，ESM2 依次合成这些预测从而形成最终的 CVR。
  可以看到，我们的 ESM2 超越了所有的其它方法。例如，ESM2 相较于 ESMM 模型在 CVR AUC 、CTCVR AUC、CTCVR GAUC 上分别获得了 0.0088、0.0101、0.0145 的增益。值得一提的是，离线 AUC 增加 0.01 总是意味着在线推荐系统收入的显著增加。
对于 F1 score，我们分别通过为 CVR 和 CTCVR 设置不同的阈值来报告几个结果。
- 首先，我们根据预估的 CVR 或 CTCVR 分数对所有样本进行降序排序。
- 然后，由于 CVR 任务的稀疏性（大约 1% 的预估样本为正样本），我们选择三个阈值：top @ 0.1%、top @ 0.6%、top @ 1% ，从而将样本划分为 positive group 和 negative group 。
- 最后，我们计算在这些不同阈值下，预估结果的 precision, recall, F1 score 。
评估结果在下表中给出。可以观察到和 AUC/GAUC 类似的趋势。同样地，我们的 ESM2 方法在不同的配置下也达到了最佳性能。
在线性能：在我们的推荐系统中部署深度网络模型并不是一件容易的事情，因为推荐系统每天服务于数亿用户。例如，在流量高峰时每秒超过1 亿用户。因此，需要一个实用的模型来进行高吞吐量、低延迟的实时 CVR 预估。例如，在我们的系统中，应该在不到 100 毫秒的时间内为每个访客预测数百个推荐的 item 。得益于并行的网络结构，我们的模型计算效率高，可以在 20 毫秒内响应每个在线请求。
为了使在线评估公平fair、置信confident、可比较comparable，A/B test 的每种部署的方法都包含相同数量的用户（例如数百万用户）。在线评估结果如下图所示，其中我们使用 GBDT 模型作为 baseline 。可以看到：
- DNN, DNN-OS, ESMM 的性能相当，明显优于baseline 模型，并且 ESMM 的性能稍好。
- 我们提出的 ESM2 显著优于所有的其它方法，这证明了它的优越性。
  此外，ESM2 相比 ESMM 在 CVR 上提升了 3%，这对于电商平台具有显著的商业价值。
以上结果说明了：
- 深度神经网络比 tree-based 的 GBDT 具有更强的 representation 能力。
- 在整个样本空间中的多任务学习框架可以作为解决 SSB 和 DS 问题的有效工具。
- 基于后点击行为分解post-click behaviors decomposition 的思想，ESM2 通过在整个空间上对 CVR 建模并利用 deterministic 行为中大量的监督信号来有效解决 SSB 和 DS 问题，并获得最佳性能。
消融研究：这里我们介绍详细的消融研究，包括深度神经网络的超参数设置、嵌入稠密数值特征embedding dense numerical features 的有效性、以及分解的后点击行为的选择。
- 深度神经网络的超参数：这里我们以三个关键的超参数（dropout rate、隐层的层数、item 特征的embedding 维度）为例，从而说明了我们的 ESM2 模型中的超参数选择过程。
  - dropout rate 指的是通过在训练过程中随机停止deactivating 一些神经单元的正则化技术。通过引入随机性，可以增强神经网络的泛化能力。
    我们在模型中尝试了不同的 dropout rate，从 0.2 到 0.7 。如图 (a) 所示，dropout rate = 0.5 时性能最佳。因此，如果没有特别指出，那么实验中我们默认将 dropout rate 设为 0.5 。
  - 增加网络的深度可以提高模型容量，但是也可能导致过拟合。因此，我们根据验证集的 AUC 仔细设置了这个超参数。
    从图 (b) 可以看到：在开始阶段（即从两层增加到五层），增加隐层的数量会不断提高模型的性能。但是，模型在五层达到饱和，后续增加更多的层甚至会略微降低验证 AUC ，这表明模型可能对训练集过拟合。因此，如果没有特别指出，那么实验中我们默认使用五层的隐层。
  - item 特征 embedding 的维度是一个关键的超参数。高维特征可以保留更多信息，但是也可能包含噪声并导致模型复杂度更高。
    我们尝试了不同的超参数设置，并在图 (c) 中给出结果。可以看到：增加维度通常会提高性能，但是在维度为 128 时性能达到饱和。而继续增加维度没有更多收益。因此，为了在模型容量和模型复杂度之间的 trade-off，如果没有特别指出，那么实验中我们默认将 item 特征 embedding 的维度设为 128 。
- 嵌入稠密数值特征的有效性：在我们的任务中有几个数值特征。
  - 一种常见的做法是首先将它们离散为 one-hot 向量，然后将它们与 ID 特征拼接在一起，然后再通过线性投影层将它们嵌入到稠密特征。但是，我们认为对数值特征的离散化 one-hot 向量表示可能会损失一定的信息。
  - 另一种方案将数值特征归一化，然后使用 tanh 激活函数来嵌入它们，即：
    $ g_{i,j} = \tanh\left(\frac{f_{i,j} - \mu_j}{\sigma_j}\right) $
    其中： $ \mu_j $ 和 $ \sigma_j $ 为第 $ j $ 个数值特征的均值和标准差。使用 $ \tanh(\cdot) $ 函数是为了将特征调整到 (-1,+1) 之间。
    然后我们将归一化的数值特征和嵌入的 ID 特征拼接在一起，作为 ESM2 模型的输入。
    和基于离散化的方案相比，归一化的方案获得了 0.004 的 AUC 增益。因此，如果没有特别指出，那么实验中我们默认对稠密的数值特征使用基于归一化的方案。
- 分解的后点击行为的有效性：当分解后点击行为时，我们可以将不同的行为聚合到 DAction 节点中。例如only SCart、only Wish、SCart and Wish 。这里我们评估不同选择的有效性，结果如下表所示。
  可以看到：SCart and Wish 的组合达到了最佳的 AUC 。这是合理的，因为和其它两种情况相比，SCart and Wish 有更多的购买相关的标记数据来解决 DS 问题。
用户行为的性能分析：为了了解 ESM2 的性能以及和 ESMM 的区别，我们根据用户购买行为的次数将测试集分为四组：[0,10]、[11,20]、[21,50]、[51, +) 。我们报告了每组中两种方法的 CVR AUC 和CTCVR AUC，结果如下图所示。可以看到：
- 两种方法的 CVR AUC （CTCVR AUC）都随着购买行为次数的增加而降低。
- 但是我们观察到，每组中 ESM2 相对于 ESMM 的相对增益在增加，即 0.72%、0.81%、1.13%、1.30%。
通常，具有更多购买行为的用户总是具有更活跃的后点击行为，例如 SCart 和 Wish 。我们的 ESM2 模型通过添加 DAction 节点来处理此类后点击行为，该节点由来自用户反馈的 deterministic 信号来监督学习。因此，它在这些样本上比 ESMM 具有更好的表示能力，并在具有高频购买行为的用户上获得了更好的性能。
论文没有分析为什么模型在更多购买行为的用户的 AUC 上下降。这表明模型在这些高购买行为的用户上学习不充分，是否可以将他们作为 hard 样本？或者把购买次数作为特征从而让模型知道这个信息？