返回介绍

14.2 需求方平台

发布于 2024-08-17 00:01:36 字数 6764 浏览 0 评论 0 收藏 0

DSP 的优化目标与大多数广告产品有所不同。从利润的角度出发,除了尽量提高广告的eCPM,还需要尽量降低每次广告展示的费用,而后者在广告网络这类的产品中是无需优化的。因此,DSP的优化问题可以用下式来表达:

公式14.3中的减号前的部分,即收益,可以通过eCPM估计来计算,其技术与广告网络中的eCPM估计相类似;而减号后的部分则通过出价策略来优化,这是DSP特有的优化需求。

DSP的系统架构如图14-4所示,其中广告投放的决策流程为:DSP服务器通过RTBS接口收到广告询价请求,然后经过与广告网络类似的决策步骤,包括检索和 eCPM 排序,找到价值最高的广告,并将报价返回给 ADX。这样的决策流程,适用于按 CPC 或效果付费、以套利为目标的DSP,这类DSP通过优化算法提升广告主的ROI来赚取更多的利润。也有一类 DSP产品,其服务接近于透明采买的方式,即广告主按照自己的用户划分和策略完成RTB购买,而DSP收取固定的手续费,这种情况下,对优化的需求就没有那么高。我们重点讨论的是前一种DSP。

与广告网络相比,DSP的广告决策过程更加复杂,我们会重点讨论下面的几个技术点。

(1)DSP往往需要支持定制化的用户划分能力。在实际产品中,定制化用户划分有时由专门的DMP来提供,但更常见的情形是DSP提供的标准接口来实现。

(2)由于 DSP是完全面向广告主的产品,需要在量的约束下投放。因此,还存在类似在线分配的问题,这产生了对于出价策略的需求。

(3)在按 CPC结算的 DSP中,进行 eCPM估计时,需要估计 CTR;而在按 CPS等效果结算的DSP中,还需要同时估计点击价值。并且,由于实时出价的要求,这两项的估计都要尽可能准确。关于点击率和点击价值估计的方法在前一章已经介绍过,本章会简要介绍一下在DSP当中的挑战。

图14-4 需求方平台(DSP)系统架构示意

14.2.1 定制化用户标签

DSP 与其他广告产品相比,多了定制化用户划分功能(customized audience segmentation)部分,这是收集第一方数据的接口,这部分数据将用于加工第一方专用的用户标签,用于指导广告投放。

对于定制化用户标签中最常用的重定向,需要将访问广告主网站的某特定用户集合传送给DSP。这个接口也有两种主要的的实现方式。

(1)直接在广告主的网站上布设DSP域名的JavaScript代码或者外链图片(也可以是不可见的beacon),这样DSP就可以直接收集到访客的记录,再自行加工分析即可。

(2)采用线下数据接口的方式,定期将广告主或者其委托的DMP收集到的访客集合批处理式地传送给DSP。当然,前提是DSP与广告主或其DMP之间建立起了cookie映射的机制。

这两种方式各有优缺点:前者能够实时地获取访客信息,但是需要一段时间的数据积累才能覆盖广告主用户集合的大部分,而且在多个DSP同时服务于一家广告主时需要加多段跟踪代码,这样会降低页面响应速度;后者虽然可以迅速得到访客集合,并且避免页面因多组跟踪代码而变得太重,却在数据更新时有一定的延迟,并且对广告主方的技术要求较高。

除了获取第一方用户行为数据的接口以外,当需要提供个性化重定向功能时,DSP 还需要向广告主提供用于商品库同步的接口,由于不同广告主的商品库存储和管理区别很大,往往需要多套接口才能满足业务的需要。在实际的个性化重定向技术中,商品库的接口是最为复杂的功能之一。

在定制化用户标签中,要特别提到look-alike(新客推荐)这类方法,因为它要同时用到第一方数据和第三方数据,有比较独特的算法建模需求。

look-alike 建模

关于 look-alike的具体建模方法,目前市场上还没有大家公认的通用方案。不过,如果从这种定向方式的本质,即t(a,u)的特点出发,并且以优化效果为主要目的话,也可以以前文讨论的点击率模型为基础,得到look-alike的一般可行思路。

任意给定一组(a,u,c)的组合,点击率模型按照训练好的模型计算其预估的点击率。如果变换一下思路,筛选出一个特定广告主的历史投放数据,并且只使用那些与用户或广告主相关的组合特征x(a,u)训练下面的模型。

虽然此模型的形式与点击率模型类似,但是其意义已经发生了本质的变化:首先,这里的一条样本是一个用户,而不是一次展示;其次,这里的输出信号y 不再是点击行为,而是标示一个用户是否为广告主用户的二元变量。显然,此模型是一个针对广告主a,评价某个u成为其用户可能性的评估函数。由于此模型评估的是用户的属性,因此与上下文信息c无关。

对于训练集中每一个用户 u,确定其对应的 y,有两种方法:第一种方法根据广告主提供的种子用户集,将出现在该种子用户集中的u对应的y 标为1,否则标为0;第二种方法根据广告投放的记录,将点击过该广告主广告一定次数(一般设为 1)以上的用户对应的 y标为1,否则标为0。比较这两种方法,第一种需要用到广告主提供的第一方数据,能够高质量且比较精确地圈定目标人群;第二种方法不需要第一方数据,但是靠广告点击收集的种子用户集合往往质量较差,而且量会受到限制,也会有比较严重的冷启动问题。至于look-alike模型的具体形式和训练方法与点击率模型有类似的选择。由于look-alike问题的训练集正比于用户规模而不是展示量规模,因此求解的过程比点击率模型会简单一些,往往不需要用分布式计算方案就可以解决。

对任意一个给定的用户 u,上述 look-alike 模型给出的是其成为广告主 a 用户的可能性。此可能性是(0,1)之间的一个概率值,对其设定一个阈值,就可以将用户分成两类,一类我们认为是该广告主的潜在新客,一类认为不是。这样就得到了该广告主的潜在新客这一标签,显然,这样的标签是一种定制化用户标签。

在很多情况下,为特定广告主发现新客,既可以采用这样的 look-alike标签,也可以采用普通的受众定向标签。比如,为招商银行的信用卡寻找新客,既可以由招商银行提供种子用户,加工其专用的look-alike标签,也可以简单地选择普通受众定向体系中的“财经/信用卡”这样的人群。显然,由于第一方数据的使用,我们希望look-alike标签在同样的reach水平下,其CTR应该高于普通受众定向标签,也就是前者的reach/CTR曲线在后者的曲线上方(如图14-5所示)。否则,look-alike技术就没有价值了。

14.2.2 DSP 中的点击率预测

DSP中的点击率预测与广告网络中的点击率预测原理一致,方法也可以通用。不过,由于RTB环节的存在,点击率预测准确性的要求是更高的,而且离线测试与线上测试存在一个系统性的偏差,下面探讨这两个问题。

对点击率预测准确程度要求高这一点很容易理解:在广告网络中,估计 eCPM 是为了对候选进行排序,因此相对一致的点击率高估或者低估,对结果的影响是有限的;而在DSP中,估计eCPM是为了做出价的依据,任何高估或低估都会对最后的利润产生直接的影响。而前面介绍的PR曲线和ROC曲线主要对排序比较敏感,在精细地反映预测准确程度上还不够。例如,我们把某一个模型计算出来的点击率µ作如下的变换:

lg µ0=12(lg µ−lg 0.01)+lg 0.01(14.5)

可以验证,µ0与µ得到的PR曲线和ROC曲线都是一样的。但是,显然它们的预估准确程度不相同。因此,除了关注AUC等指标以外,还需要在各种流量细分上关注预测点击与真实点击的比,看它是否在1附近。某部分流量上真实点击总数与各展示预估CTR之和的比例称为CoPC(Click on Predicted Click),在实际系统中,CoPC也是需要重点关注的指标之一,它表征着某部分流量上是否存在明显的点击率高估或低估。

图14-5 look-alike标签与一般受众定向标签效果区别示意

表14-1 说明了 DSP 点击率模型离线测试与线上测试的系统性偏差。假设有三个广告位A、B、C,在探索得到的训练集上获得的流量都是10千次,并且点击率也都是0.2%,但是模型估计的点击率有的高估,有的低估。于是,在离线测试时,模型估计的平均点击率与真实点击率是一致的。然而,在线上按照此模型参与竞价时,点击率高估的部分获得的流量比例会上升,如表中所示,A、B、C 三个广告位实测时获得的流量分别为 70 千次、100 千次、130千次,于是,在线上实测集上观察,模型预估的平均点击率变成了0.21%,比真实点击率高估了 5%。由于模型总是会在部分流量上高估或低估,因此,这样的系统偏差总是存在的,有时还会相当严重。

特别提及此系统偏差的目的是要告诉大家,在实时竞价的动态博弈环境下,由于模型本身会影响流量的分布,对点击率预测和其他算法问题效果的理解要有新的思考方式,并且应该更多地根据线上实测的结果来判断一个模型的好坏与取舍。

14.2.3 点击价值估计

由于DSP代表的是广告主的利益,往往可以通过在广告主网站布设代码等方式获得转化数据[15],按CPS/CPA/ROI等转化效果方式与广告主结算。在这种结算方式下,除了要按广告网络那样估计点击率,还需要估计点击价值。我们来看点击价值估计的问题。

如公式14.6所示,点击价值可以分解为到达率(reach)h、转化率c和转化单价t三个量的乘积。到达率指的是实际打开广告落地页次数与点击次数的比例,这与广告主网站的页面打开延迟关系最大,与媒体的属性、特别是误点情况也有一定关系,因此可以认为它与广告主 a 和媒体 c 有关;转化率指的是到达落地页以后,有多少比例产生了广告主定义的转化行为,这主要与用户对广告主产品的兴趣有关,因此是广告主a和用户u的函数;转化单价在 CPA/CPS类的广告中是广告主指定的转化费用,而在ROI类广告中是广告主客单价与分成比例的乘积,因此我们认为转化单价主要与广告主a相关。当然,上面的讨论非常近似,实际上a、u、c三个变量都对到达率、转化率和转化单价有一定的影响,而公式14.6只考虑了其主要影响因素。

上面的几个量中,到达率与转化单价都不难统计,而转化率的估计是一个比较困难的问题。这首先是因为转化比起点击还要稀疏得多,用机器学习的方法建模存在较大困难;其次,转化的定义和性质与广告的具体业务类型、甚至不同广告主的目标紧密相关。例如,电商广告主会将购买定义为转化,而游戏广告主在开服的需求下会将注册定义为转化,在一般运营状态下会将充值定义为转化。显然,不同类型的转化无法用同一模型来描述,这进一步加剧了数据的稀疏性。

特别要注意的是,在没有充足的行业数据支持的情形下,广告产品千万不能贸然将点击价值估计全部交由机器完成。实践中比较可行的办法基本上都是简单统计与运营经验相结合来估算转化率。不过,当某 DSP的广告主类型和转化流程相对一致,比如专门服务于游戏客户的 DSP 或者像淘宝这样的平台电商自建的 DSP,那么在转化数据比较充分的前提下,可以采用机器学习建模的方法预测转化率。转化率预测用到的数学工具和优化方法在此不再展开介绍。

14.2.4 出价策略

如果 DSP投放的广告活动没有预算的限制,那么出价策略非常简单:只要按照 eCPM水平出价,就可以保证在第二高价的情况下每次展示都有利润。但是在有预算约束的情况下,显然希望每次展示的利润率尽可能高,而利润率除了需要知道eCPM,还需要对当前展示的市场价格有所估计,并在全局水平上尽可能将出价集中在那些利润率较高的展示上,这就是DSP出价策略的直观理解。

显然,出价策略也是一个量约束下的效果优化问题,可以很自然地想到用在线分配的问题框架来解决。根据上面的问题描述,可以把出价策略描述成如下的优化问题:

在这个问题中,仍然把流量分解成一组供给节点 i∈I ,并用 ria 表示供给节点 i 分配给广告a的单位流量收益,用mi 表示供给节点i上的市场价格。由于第二高价的存在,市场价格就是成本,而ria−mi就是单位流量产生的利润。公式里的需求约束表示的是每个广告主的花费不能超过其预算。因此,这个优化问题的物理意义是,在广告主预算的约束下最大化DSP的收益。注意到在供给约束中,所有的xia 分配比率加起来可以小于1,也就是说,对在线到来的询价请求可以有一定不参与竞价的概率,这也反映了出价策略的本质。

我们注意到,在这个问题中,ria 和mi 是需要估计的量,也是策略优化的关键。在估计ria 和mi 时,比较重要的一点是如何将流量划分到合适的供给节点上,在最彻底的情形下,还是可以将每次展示作为一个供给节点,直接利用eCPM估计的模型来计算ria,并建立一个专门的市价预测模型来估计mi。不过,由于对市价mi 的估计远远没有对eCPM的估计那样可靠,不宜使用过于复杂的模型和算法,一般来说,主要使用时间、地域、媒体属性等影响明确的因素来进行预估。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文