返回介绍

6.6 数据加工与交易

发布于 2024-08-17 00:01:36 字数 8899 浏览 0 评论 0 收藏 0

通过前面的讨论我们知道,要提高定向的精准程度与人群覆盖率,技术远不是唯一重要的因素。那么什么才是决定性的呢?是数据的来源与质量。这是正确认识精准广告业务非常重要的观点。为了强调这一观点,我们以大家更容易理解的石油加工工业为例与之做类比,如图6-10 所示。在石油工业中,从油田挖掘出的原油是整个行业的原材料,炼油厂的作用是把这一原材料加工成汽油等燃料,再输送给加油站这样的销售终端。在精准广告中,可以把用户的行为类比于石油工业中的原材料,日志收集和清洗系统的作用就相当于油田的挖掘设备。而受众定向的平台就可以类比于炼油厂,它把原油,即清洗过的日志,加工成用户标签,而这些用户标签就像汽油一样,是可以被销售和使用。而传统广告中起关键作用的广告位在这里仅仅变成了加油站,负责完成产品消费的过程而已。

图6-10 数据驱动的计算广告与石油加工对比

如何正确认识技术在精准广告业务中的作用呢?从上面的类比可以看出,技术的地位相当于挖掘设备和炼油设备,当然有着无可置疑的重要性。技术能力的高低直接影响着数据采集和变现的有效性。不过从另一个角度说,技术的作用也不能被过分夸大。巧妇难为无米之炊,没有高质量的原材料,即用户数据,再高明的技术也没有用武之地。

6.6.1 有价值的数据来源

既然数据本身有这样根本性的作用,甚至从某种意义上说是精准广告市场的核心,那么围绕数据本身的加工与交易就与广告的投放技术一样令人瞩目。有哪些数据是对精准广告业务有直接贡献的呢?我们可以重点关注下面的几类。

(1)用户标识。对广告而言,如何确定哪些行为来自于同一个用户是非常关键的问题。用户标识对于行为定向的重要性往往容易被忽视。实际上,稳定精确的用户身份就像是一串0前面的那个1一样,对准确界定受众和利用数据至关重要。无论能拿到多少行为数据,如果无法把它们与投放系统联系起来,这些数据都无法发挥作用。

对于浏览器行为,我们最常使用的用户标识是cookie,但是由于存在同时使用多个浏览器、cookie过期或用户主动清除cookie的情况,这种用户标识的长期一致性并不算太好。不过好在对广告来说,起关键作用的还是用户近期内的行为,所以用 cookie 作为用户标识还是有效且为业界广泛采用的基础方案。如果运营广告业务的域名同时提供其他有永久身份的服务,如电子邮件、SNS等,那么可以用这些永久身份找回过期或被清除的cookie,这样用户身份的一致性就会改善。当然,如果广告业务域名和用永久身份服务的域名不同,也不是完全没有办法,在后者同意的前提下,可以采用 cookie 映射的方法来对应彼此的用户身份,这一技术的细节将在后文谈到广告交易的技术时再讨论。

在移动互联的情形下,iOS与Android在应用内广告使用的用户ID有所不同:前者是苹果公司设计的广告专用用户标识符(Identifier for Advertising,IDFA),其性质与 cookie类似;而后者没有专门的广告用户ID,一般采用Android ID或IMEI(international mobile equipment identity)号等标识信息。

由于高质量的用户标识本身就是一种非常有价值的数据,因此也是可以在市场交换和售卖的。

(2)用户行为。业界通常认为,转化(conversion)、预转化(pre-conversion)、搜索广告点击(sponsored search click)、展示广告点击(ad click)、搜索点击(search click)、搜索(search)、分享(share)、页面浏览(page view)、广告浏览(ad view)等在线行为是可以被广泛采集并且对于受众定向或广告决策有明确作用。按照对效果广告的有效性分类,这些行为可以分为决策行为、主动行为、半主动行为和被动行为。

决策行为主要包括转化和预转化。这些都是在广告主的网站中发生的行为,往往对应着非常明确的用户兴趣。例如在电商网站上,转化就对应着最后的下单,而预转化对应下单前的搜索、浏览、比价、加入购物车等多种准备工作。这类行为的价值是最高的,但是也是供给方或广告平台最难得到的。根据广告主端的数据进行重定向或者个性化重定向是对此类行为最直接的利用。在行为定向中,这类数据虽然量不大,但却不能忽视。

主动行为主要包括广告点击、搜索和搜索点击。这一组行为都是用户在网络上在明确意图支配下主动产生的行为,因而也有比较丰富的信息量。其中的广告点击行为一般来说量不大,并不能作为定向的主要数据来源。而搜索行为是能够大量获得的最主要的主动行为,需要特别注意挖掘利用。

半主动行为主要包括分享和网页浏览。这两类行为都是用户在目的比较弱的网上冲浪过程中产生的,因此,其所涉及的兴趣领域对把握用户信息有价值,但是非常细节的内容其精准程度有限。半主动行为的指导意义虽然有限,但是其数据量却是各种行为中最大的。

被动行为主要是指广告浏览。广告浏览严格来说不能算作定向的行为依据,但是由于其频次与相应类别的广告点击负相关,因而在行为定向的建模中也可以使用。

(3)人口属性。人口属性本身是常用的一种定向标签,因此其数据来源很重要。一般来说,只有一些能够与用户实名身份绑定的服务可以得到此信息。我们也可以利用网络行为数据进行人口属性标签的预测,但是这样做的准确程度一般都很有限,而且仍然需要一些标定的数据用于训练。对于某些人口属性,可能一些特别的信息比较容易给出准确的判定,例如用语音服务记录的声音信号,可以将男女区分得相当准确。

(4)地理位置。地理位置信息随着能获得的精度不同其用途也会有相当大的差异。如果只能根据IP进行映射,我们往往只能拿到精确到城市级别的地理位置,当然这对于很多广告投放来说已经有相当的价值。而在移动互联环境下,GPS 或蜂窝可以提供的定位往往可以准确到几百米的范围,这就使得 hyper-local 的区域广告商投放定向广告成为可能。这样的广告定向,对于餐饮等受地理位置限制极大的线下业务广告商是非常有价值的。

(5)社交关系。社交网络上的关系反映了人与人之间的联系,也隐含了一种联系人之间“兴趣相似”的合理推测。因此,社交关系可以用于用户兴趣的平滑。当广告系统观察到某个人的行为不足,无法进行精准的行为定向时,可以考虑借鉴其社交网络朋友的行为和兴趣。比如一个人在微博上的好友有很多都是足球爱好者,那么可以猜测他也是一名足球爱好者。虽然这样的猜测未必准确,但只要统计上合理,就会对广告投放效果有帮助。需要注意,这样的平滑只适用于那些长期稳定的兴趣,对于短时的购买兴趣不太适用。从这个意义上来看,强关系类型的SNS比弱关系的SNS有优势,关注人群比被关注人群的信息意义更大。

关于以上各类行为数据对广告效果的意义,有两条基本的规律:首先,随着用户主动意图的提升,相应的行为数据信息价值也随之增大;其次,越接近转化的行为,对效果广告的精准指导作用越强。把握这两条规律有助于大家判断各种各样的行为数据的价值。不过读者不要忘记,广告的根本目的是“低成本地接触潜在用户”。如果仅仅从转化效果上判断行为数据的作用,会发现靠近转化的行为更精准,实际上是因为这部分人群已经更加接近于决策的最终阶段,也就是说越发不是“潜在用户”。因此,在行为定向这个问题上,不能单纯追求ROI或者转化效果,而是要根据广告主的具体的人群接触目标来平衡效果和覆盖率。

6.6.2 三方数据划分

广告中用到的用户数据,根据其来源的不同可以分为第一方数据、第二方数据和第三方数据,如图6-11 所示。一般我们说的第一方和第二方分别是指广告主和广告平台,而不直接参与广告交易的其他数据提供方统称为第三方。在广告网络中,主要使用第二方数据指导广告投放;而在实时竞价环境下,不仅第一方数据可以被利用,大量第三方数据的加工和交易也逐渐发展起来。虽然,一般情况下第一方数据的量较小,却是所有数据的灵魂。以第一方数据为基础,用好第二方数据和第三方数据,是实时竞价时代重要的方法论。

图6-11 三方数据示意

6.6.3 数据管理平台

第一方数据的收集和加工是广告市场上非常重要的环节。不过对于没有这方面技术积累的广告主而言,专门设团队进行数据加工是没有必要的。因此,市场上也产生了专从事此业务的产品,称为数据管理平台即DMP。DMP有下面几个核心的产品功能。

(1)它可以为网站(可以是媒体也可以是广告主网站)提供受众定向功能,并将得到的用户标签应用于网站业务。在这一过程中,除了加工一些通用标签,DMP还需要能够比较灵活地按照网站定义的用户标签来加工受众人群。

(2)如果媒体网站授权,DMP可以提供接口对加工出来的用户标签进行变现,并与网站进行分成。

(3)广告主网站可以通过 DMP 与广告采买渠道进行更方便的数据对接。这一点可以通过下面的应用来理解。假如某广告主需要通过外部广告平台做重定向,那么需要将自己的用户集合通过某种技术方式通知广告平台。如果每个广告平台都采用在广告主网站上加跟踪代码的方式来收集用户,有两个弊端,一是多个广告平台同时加代码,有可能使页面变得太重;二是访客的积累可能长达数周的时间,这使得广告平台重定向的效率降低。如果由DMP唯一负责广告主网站的用户积累和划分,并通过数据接口的方式传送给广告平台,那么可以很大程度上解决上述问题。

在北美的在线广告市场上,有不少以DMP类似业务为主要方向的公司。比较有代表性的是AudienceScience。

6.6.4 数据交易平台

数据交易平台(data exchange)的主要产品功能是聚合各种来源的在线的用户行为数据,加工成有价值的用户标签,然后在广告市场上通过售卖这些标签来变现。数据交易平台与数据管理平台的产品边界并不是泾渭分明。一般来说,数据交易平台除了聚合成型的用户标签,也都会提供聚合原始行为数据自行加工标签的功能,也就是兼具 DMP的产品功能。不过,数据交易平台往往是按照自己的逻辑而非媒体的需求来制定标签体系和加工数据,因此,可以认为DMP是站在第一方数据的角度提供产品,而数据交易平台主要是站在第三方数据的角度提供产品。

关于数据交易的方式如图6-11所示,一般是通过ADX或SSP作为中转来完成。数据交易平台提供的各种用户标签作为ADX的一个辅助产品提供给各DSP。标签一般按照CPM计价,DSP如果选择购买某种标签,则在广告询价的过程中,ADX将本次请求的用户标签传给 DSP,最终按照 DSP 实际成交的展示量乘以 CPM 价格作为其购买数据的附加费用。以广告交易为载体进行数据交易是比较合理的产品方案,这种方案有一些具体的好处:首先,在广告请求上附加用户标签,不会带来额外的服务开销;其次,所有的DSP、数据提供方都只需要与 ADX进行 cookie映射,这样以ADX为中心的星型拓扑结构比起DSP与数据提供方直接进行cookie映射的拓扑结构显然要方便得多。

6.6.5 产品案例

数据管理和交易产品在程序化交易市场已经比较普及,但是在中国市场中还没有形成规模。究其原因,恐怕与中国存在着大量作弊和流量劫持(参见 15.3 节)等灰色低成本渠道不无关系。因此,我们将主要关注国际市场中比较成熟的数据类产品,并以 BlueKai 和AudienceScience为代表。

1.BlueKai

我们先介绍一下 BlueKai 这家公司的发展历程:2007年年末,展示广告占 200亿美元在线广告市场的75%。同年,在雅虎6.8亿美元投资了RightMedia,Google以31亿美元收购了DoubleClick的背景下,BlueKai的CEO Omar Tawakol预见到未来展示广告的客户需要将广告精准投放到特定的消费群体,于2008年建立了一个名为Data Exchange的数据库,一方面让中小网站提供流量、会员资料等信息,另一方面将这些信息加工后销售给中小广告主。2009年BlueKai启动了分析服务,帮助用户区分受众购买行为。2011年,BlueKai收购Tracksimple,加强了自己的数据分析能力,从而为广告主提供一站式的包括数据分析、数据购买的SaaS服务。近年来,作为Data Exchange和DMP的领头羊,BlueKai开创和推动了一个独立DMP时代,活跃用户数超过3亿,前20位的广告网络、门户网站中有80%在使用BlueKai的数据。

BlueKai 作为一个独立 DMP,不像其他 DMP 公司开始整合 DSP 业务,而是一直不提供媒体的竞价采购服务。BlueKai 认为,这样可以保持 DMP 的中立性,可以使 BlueKai的 DMP 与多家 DSP 对接合作。2014年 2 月,BlueKai 被 Oracle 以 4亿美元收购。作为BlueKai 的收购方,Oracle 没有媒体购买的业务,主要是一些企业级的市场营销管理服务,因此与 BlueKai 的独立 DMP 的市场定位相符合。作为独立的 DMP,BlueKai 收入规模并不大,2013年总收入仅6400万美元左右。

BlueKai的主要业务模式是聚合大量中小媒体的有价值行为数据,使用受众定向技术为用户打上标签,并对外售卖标签以获取收入。BlueKai通过数据交易获得的收入,其中很大比例还将返还给数据提供方。BlueKai 的重点放在汽车网站、旅游网站和各种购物网站上,因为这些网站背后代表着某一个同质性较高的族群,与这些主题网站相关的广告主,如航空公司、汽车厂商等,也非常需要精准营销。比如有一家售卖服装的小网店,它有自己用户的搜索行为和购买行为,但它的数据量不大,不值得用这些数据去分析变现,BlueKai就会与这些中小网站合作,通过汇聚众多中小网站的用户资料和行为数据,加工成受众定向标签,通过Data Exchange对外售卖。比如某些DSP想知道用户身上有什么标签,而它又没有用户信息,就可以向BlueKai购买或分成,BlueKai再向网站分成。

BlueKai同时提供面向媒体、数据提供商和广告主的一系列产品,包括DMP、数据交换平台(BlueKai Data Exchange)以及数据分析系统。这几项产品都围绕一个商业目标展开,那就是帮助有数据变现需求的参与者能够自由、灵活地通过技术对接的方式与广告主进行交易。对于媒体或者其他拥有数据者,可以通过BlueKai Data Exchange将自己的数据公开式地出售给市场上的需求方,同时可以比较自主地控制定价;对于广告主,可以通过 BlueKai提供的DMP产品和第三方数据标签,与自己的第一方数据结合起来,对自己的人群进行更灵活的划分,并按此购买广告。BlueKai在其中所扮演的核心价值在于,尽管单看每一个媒体的信息都不具有太大的价值,但当达到一定规模之后,BlueKai按照自己的受众定向技术对这些数据进行重新分类,就能让其蕴含的商业价值得以显现。

通过这种数据交换方式,广告市场上最有价值的数据资源被盘活利用了。数据拥有者不需要直接涉足复杂的广告业务,也可以对数据进行变现;而数据需求者也可以方便地找到数据购买来源,以快速提高自己广告投放的效果。BlueKai也注意到了隐私的问题,它提供了一个接口,用户可以看到自己的资料被谁使用,也可以选择“捐给慈善机构”。而实际上这不过是一种规避风险的方式,基本上不会影响到BlueKai和中小网站原本的收入。有关隐私方面的问题,读者可以进一步参考15.4节。

Bluekai 提供大量细分的类别,它有着开放体系上的标签,如“对宝洁洗发水感兴趣的人”“想去日本旅游的人”,这些非常精细类目对于要做效果广告的广告主来说非常有意义,所以它的售价也很高。根据广告主使用目的和数据来源的不同,这些标签又分成如下的几种:Intent、B2B、Past Purchases、Geo/Demo、Interest/LifeStyle、Branded、Estimated Financial/Economic。这是一个比较典型的半开放的标签体系,其中的Intent部分非常类似于前文中的兴趣定向体系,这部分是由BlueKai根据通过Data Exchange收集的用户行为加工的。而其他的部分,有的是由其他数据提供商直接提供,比如由Bizo提供的B2B标签;也有的是根据多家的数据融合决策而成,比如Demo/Geo标签实际上融合了Bizo、DataLogix、Expedia等多家数据提供商的数据源。

之所以说 BlueKai 的标签体系是开放式的,是因为它会根据数据的来源和市场需求不断拓展和调整标签的类别和内容,力求能够满足尽可能多的广告主的特质化需求。表6-3中列出了BlueKai主要的几种标签、覆盖用户量和主要数据来源。

表6-3 BlueKai 标签体系主要类别

2.AudienceScience

AudienceScience 是广告市场上首先明确提出受众定向这一概念的公司,并且长期专注于这方面的数据加工和算法建设。它的核心业务包括以下两方面。

(1)主要提供面向 publish的数据加工服务。比如《纽约时报》(New York Times)自己有很多用户,也有很多在线数据,但很显然它的核心业务不是做广告,也不是做数据加工,它更愿意把数据交给 AudienceScience,AudienceScience 帮它加工一些有意义的用户标签,比如财经类用户、体育类用户。New York Times的BI系统可以用这些标签分析哪些用户对哪些内容感兴趣,应该如何优化内容。

(2)AudienceScience还直接运营一个效果广告网络,帮助广告主进行投放管理和优化,这里就用到了它分析得到的用户标签。

就其数据聚合和收入分成的模式来说,AudienceScience与BlueKai有很多相似之处。两者主要的区别是,AudienceScience 并不通过售卖标签来获得收入,而是仅供委托他们优化效果的广告商使用,即通过运营一个自有的广告网络来变现,使用标签创造的营收按照一定比例跟提供数据的媒体分成。这样做的原因是AudienceScience认为数据加工业务在扣除媒体分成以后利润空间太小,而自营广告网络有可能获得更大的套利空间。

AudienceScience其具体的商业流程是:网站(可以是广告主或媒体网站)先把自己的流量托管给AudienceScience,并付给AudienceScience一定的技术服务费,AudienceScience把数据加工成标签,首先提供给网站用以优化它的流量和用户体验。同时,它在自己的广告网络中对这些数据进行变现,变现的数据过来又可以与媒体分成。

随着近年来 RTB 模式的发展,AudienceScience 也逐渐从自营广告网络向整合的 DMP/DSP的方向发展,因为不同于 BlueKai是作为第三方的数据提供者,AudienceScience加工用户标签的目的主要就是为了更好地服务自己的广告主,其为了优化广告主需求方的利益,融合了DMP的数据来指导DSP的投放效果也是自然的选择。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文