12.4 人口属性预测
严格来说,年龄、性别、教育程度、收入水平等人口属性并不属于用户的兴趣,而是用户确定的特点描述。不过在实际定向广告系统中,除了一些实名的社交网络以外,规模化地获得人口属性比较困难,因此往往还是需要数据驱动的模型,以用户的行为为基础自动预测其人口属性。
这种基于预测的方法直觉上很容易理解,以性别属性为例:经常访问军事网站或汽车网站的用户绝大部分都是男性;经常浏览娱乐八卦的用户则以女性居多。性别属性预测的问题可以描述成一个典型的二分类问题,其输入特征就是用户的原始行为b(或者提取后的行为特征x0),而输出就是{M(男),F(女)}两个分类。有很多机器学习模型都可以用于性别预测问题,比如采用最大后验概率的框架,则预测问题可以表示成:
其他的模型,如支持向量机(Support Vector Machine,SVM)[16]、AdaBoost[32]等,都可以考虑,需要根据自己的数据特点具体判断哪种模型更合理。
建模中有两个问题需要注意:首先,不论用什么样的模型来预测人口属性,必须要有一定的拒识门槛,也就是说对那些行为不够丰富或不够有代表性的用户应该输出“未知”的判断,而不是简单地用模型算出一个结果;其次,模型训练集的获得非常重要,往往算法的有效性不如更准确、规模更大的训练集对结果的提升明显。较大训练集的获得往往是要依赖社交网络,比如可以将广告系统的用户身份与微博用户对应,再从微博公开的用户属性获得标注。
除了性别以外的其他人口属性用简单的分类模型并不太准确。以年龄为例,假设我们把标签设定成五个年龄段,那么将第一个年龄段的认错分到第二个年龄段与错分到第三个年龄段的代价应该是不同的,而如果采用简单的5个类的分类模型,这一差别就被忽略了。因此,需要在分类模型中明确考虑不同类之间的错分代价,其他的属性如教育程度、收入水平也类似。不过总体上说,从用户行为上预测非性别的人口属性是比较困难的任务,除非有非常相关的数据来源以及充分多的准确的训练样本,否则不太建议用这种方法获得这些标签。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论