7 排名算法
7.1 网页排名算法
表格 12 网页常见算法比较
算法 | 算法简介 | 公式 | 优缺点 |
---|---|---|---|
PageRank | 网页重要性评价。根据 网页 之间相互的 超链接 计算的网页排名算法。 | PR(A) = (1-d) + d *( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ) | |
Hits | 网页权威性评价。基于链接和用户搜索主题。算法核心在于权威值和枢纽值。 | ||
HillTop/ Hits | PageRank 和 Hits 的综合。主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。 | ||
网页作弊评价 | 包括 TrustRank、不信任传播模型、Panda、网页特征判断模型 |
7.1.1 网页重要性~PageRank
PageRank,网页排名,又称网页级别、Google 左侧排名或佩奇排名,是一种由 搜索引擎 根据 网页 之间相互的 超链接 计算的网页排名技術,以 Google 公司 創辦人 拉里·佩奇 (Larry Page)之姓來命名。此技術通常和 搜索引擎优化 有关, Google 用它来体现网页的相关性和重要性。 Google 的创始人 拉里·佩奇 和 谢尔盖·布林 於 1998 年 在 斯坦福大学 发明了这项技术。
PageRank 公式 :
$$
PR(A) = (1-d) + d *( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) )
$$
公式说明:我们假设 外部站点 T1…Tn 指向 网页 A(例如,被引用)。
- PR(T1) 表示该外部链接网站本身的 PR 分值;
- C(T1) 表示该外部链接站点 T1 所拥有的外部链接数量。PR(T1)/C(T1) 即为外部站点 T1 带给网页 A 的 PR 分值。
- 参数 d 是制动因子,使结果在 0,1 之间。通常 d 等于 0.85。即这个因子的存在是为了保证每个页面有个不为 0 的初始 PR,并且在不断重复计算中还原其真实 PR。一个网站的投票权值只有该网站 PR 分值的 0.85,而且这个 0.85 的权值平均分配给其链接的每个外部网站。
- 参考 2:PR(A) 表示的是从一个外部链接站点 T1 上,依据 Pagerank 为系统给你的网站所增加的 PR 分值。C(A) 定义为网页 A 指向其它网页的链接数。
备注 :
- 注意 PageRank 的形式,分布到各个网页中,因此所有网页的 PageRank 和是 1。
- 这个公式表明外部链接站数量 Tn 越多,能得到的外部 PR 分值就越多,最终网页的 PR 值就高。
- 这项技术的主要缺点是旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。
这就是 PageRank 需要多项算法结合的原因。Google 经常惩罚恶意提高 PageRank 的行为,至于其如何区分正常的链接交换和不正常的链接堆积仍然是商业机密。
7.1.2 网页权威性~HillTop 算法
HillTop 认为只计算 来自具有相同主题的相关文档( 专家
文档) 链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
7.2 网站流量排名算法 Alexa
曾经使用的一个排名算法是:
$$
Traffic Rank = Reach ^2 * PV
$$
Reach -- Reach per million users, 每百万用户访问人次,现在是全球用户访问比率.全球网民总数约 10 亿,其中装 alexa 工具条的估计在 100 万—1000 万之间..
PV -- PageViews per user 每用户浏览页面数,简称 PV
考虑到中国境内使用 Alexa 工具条的明显不如欧美地区,可加入到地区权重因子。公式改进为:
$$
Traffic Rank = (Reach*d) ^2 * PV
$$
其中参数 d 为地区权重因子,欧美地区为 1,中国为 5.
7.3 投票排名算法
CodeProject 文章排名算法
CodeProject 上有对所有文章进行了排名,并公开了自己的排名算法,公式如下:
Rank = Rating * Log10(Votes) //会员评分权重*标准化投票数
Rating = SUM (Rating*weight)/SUM(weight) //会员评分权重
可以看出,这个算法在计算排名时,用了投票数取 Log10,再乘以得分,这样就避免了 3 个 5 分比 10000 个 4.9 分排 名高的情况,同时,CodeProject 的得分,并不是平均分(上面 Rating 的计算公式),而是考虑根据每个会员的等级,乘以一个系数,也就是说越 高级会员,评分的权重会越大。
看起来 CodeProject 的排名算法还比较简单,不过,这里的 Log10 和会员权重都是一些经验数据,并没有理论支撑,所以显得不是那么严谨。
电影排名算法
IMDb Top 250 http://www.imdb.com/chart/top
成立与 1990 年的 The Internet Movie Database (互联网电影数据库,简称 IMDb) 是目前全球互联网上最大、最详细的电影及电视剧数据库。作为 amazon.com 的旗下网站,IMDb 除了拥有无比详 细的数据外还有大量忠实的用户。这些忠实用户对每部电影的评分就构成了目前公认最权威的电影排行榜——IMDb Top 250。
IMDB 的 Top 250 电影可是鼎鼎有名, 深受影迷的欢迎,注册的用户可以给任何一部影片打分并加以评述,而网站又会根据影片所得平均分、选票的数目等计算得出影片的加权平 均分并以此进行 TOP250(最佳 250 部影片)和 Bottom100(最差 100 部影片)的排行。
$$
Weighte Rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
$$
其中:
v = number of votes for the movie = (votes) (投票人数,需要注意的是,只有经常投票者才会被计算在内)
m = minimum votes required to be listed in the top 250 (currently 1250) (进入 imdb top 250 需要的最小票数,只有三两个人投票的电影就算得满分也没用的)
R = average for the movie (mean) = (Rating) (是用普通的方法计算出的平均分)
C = the mean vote across the whole report (currently 6.9) (目前所有电影的平均得分)
IMDB 的算法其实非常接近于贝叶斯算法,并且取得了相当 可信
的效果(IMDB 的 Top 250 被 N 多网站引用),可见贝叶斯算法在现实中还是很有价值的。
豆瓣电影 250
http://www.douban.com/movie/top250
豆瓣采用的简单平均分方法。
迅雷评价最高影片 http://movie.xunlei.com/top/top_rating.html
整体评分=印象×50%+(导演+故事+画面+表演+音乐)×10%
7.4 内容价值排名
7.4.1 新榜指数
新榜指数(New Rank Index,NRI)系由新媒体排行榜( newrank.cn )基于海量数据、用户深度反馈及专家建议而推出,用于衡量中国移动互联网渠道新媒体(主要指两微一端)的传播能力,此指数反映该新媒体主体的热度和发展趋势。
新榜隶属于上海看榜信息科技有限公司,成立于 2014 年 8 月,是一家定位于内容创业服务平台,用以衡量传播价值、品牌价值、投资价值的新榜指数,已经成为中国移动互联网内容价值标准。
2006.5,内容数据服务平台 新榜 宣布获得 A+轮融资。本轮由微影资本,真格基金、高榕资本跟投。融得资金将用于提升用户体验,扩大数据服务,打造新媒体全链条的解决方案等。据了解,新榜已遍历 1000 万个以上微信公众号,并保持每天持续监测超过 20 万个有影响力的优秀账号。
以下算法主要针对微信进行阐述:
算法简述
新榜指数是由原始数据参照基数通过计算公式推导出来的标量数值,用以衡量原始数据在其所属维度的相对表现。例如,xx 点赞数为:379,我们会将这一数据和点赞常数进行比较,以确定其点赞数的相对位置,进而转换为其点赞指数,其余指标以此类推。
该算法相较于常规加权有四大优势 :
1、不仅显示绝对表现,还能反映所处位置;
2、标准化后,不同维度的指标之间可以相互比较;
3、指标之间可以相互运算,从而得到综合考察各维度的新榜指数;
4、不仅可以用于账号间的比较,也可以用于账号自身的跨期比较。
微信新榜指数
算法
1、选定指标
在微信的计算中,为兼顾其数量与质量,我们使用总阅读数、最高阅读数、平均阅读数、头条阅读数、总点赞数五个指标来对账号进行评估,其中:
整体指标(总阅读数,R):指统计周期内所有发布内容的阅读数总和;
优异指标(最高阅读,Rm):是指统计周期内所有发布内容中的单篇最高阅读数;
质量指标(平均阅读数, Ra ):统计周期内所有发布内容的阅读数平均值;
主动预判指标(头条阅读, Rh ):统计周期内位置为头条的内容的阅读总数;
互动指标(总点赞数,Z):统计周期内所有发布内容的点赞数总和。
2、指标标准化
基于不同维度指标的差异性,我们首先将所得数据标准化,即通过对各维度原始数据与该维度常数的比值计算,得到该样本各项指标的千分化数值。
在新榜指数中,以天为最小计算周期,将常规(1 天推送一次,每次最多 8 篇)的公众号为对象在这一时间段内总阅读数、最高阅读数、平均阅读数、头条阅读数和点赞数共五个指标的常数分别记为:
网红排名指数
网红排行榜中的综合得分暨新榜指数,由各项原始传播数据标准化处理之后,参照权重计算公式推导而得,包括网红自身传播、网络舆论声量、传播加分项三大维度,满分 1500 分,共计近 30 个细项指标,算法公式如下:
图 8 网红排名算法
7.4.2 清博指数 gsdata.cn
微信传播指数 WCI(V12.0)
WCI-12.0 版本旨在鼓励账号提高单篇文章质量,合理把握推文数量,多做精品、少发 垃圾文
,提高账号的整体传播力和影响力。
图 9 微信传播指数 WCI(V12.0)
其中,R 为评估时间段内所有文章(n)的阅读总数;
Z 为评估时间段内所有文章(n)的点赞总数;
d 为评估时间段所含天数(一般周取 7 天,月度取 30 天,年度取 365 天,其他自定义时间段以真实天数计算);
n 为评估时间段内账号所发文章数;
Rmax 和 Zmax 为评估时间段内账号所发文章的最高阅读数和最高点赞数。
微博传播指数 BCI(V9.0)
微博传播指数 BCI(Micro-blog Communication Index)通过微博的活跃度和传播度来反映账 号的传播能力和传播效果。BCI 重在评估账号的原发微博传播力,旨在鼓励高质量原创内容。
1、指标体系: 采用数据:发博数 X1、原创微博数 X2、转发数 X3、评论数 X4、原创微博转发数 X5、原创微博 评论数 X6、点赞数 X7。
采用指标:主要通过活跃度和传播度两大维度来进行评价。建立如下指标体系:
图 10 微博传播指数 BCI(V9.0)
图 11 微博传播指数 BCI 相关指标与权重
品牌价值指数 BVI
1、市值/估值:名单中包括上市和非上市公司。
2、品牌口碑、品牌潜力:两项为专家打分。
3、BCI:微博传播指数 BCI(Micro-blog Communication Index)通过微博的活跃度和传播度来反映账 号的传播能力和传播效果。BCI 重在评估账号的原发微博传播力,旨在鼓励高质原创内容,详见 BCI 说明。
4、WCI:微信传播指数 WCI(Wechat Communication Index)是指通过微信公众号推送文章的传播度、覆盖度及账号的成熟度和影响力来反映微信整体热度和公众号的发展走势。WCI 用总阅读数、平均阅读数、 最高阅读数、总点赞数、平均点赞数和最高点赞数六个指标对微信公众号进行评估。详见 WCI 说明。
5、计算公式如下:
网红指数 OCI(Online Celebrity Index)V2.0
1、评价对象 :
在微博、微信、社区贴吧等互联网平台上具有一定话题度和影响力的 网络红人
,其因在现实或网络生活中的某个事件或行为而被网民关注,并在跨平台传播和全 民娱乐过程中走红。既包括作家、企业家、官员等在现实社会具有一定影响力的人,也包括段子手、美女等草根。本评估主要面向在微博、微信平台上走红的网红。
2、评估维度 :
网红指数旨在评估网红在各大网络平台(包括微博、微信、视频、网页等)的综合影响力和传播度,具体包括传播力、影响力、转化力(待定)三大维度。其中,传 播力主要考核网红在微博、微信和主流视频平台发布内容的传播情况,通过阅读数、转评数、点击数等流量数据来量化;影响力用以评价网红在各大网络平台的人气 和网络关注度,主要通过网红粉丝数、网民关注度、新闻关注度等指标量化评估;转化力主要考核网红通过导流、营销、创投等方式实现商业价值转化的能力,通过 电商平台的销售数据和融资情况来量化评价。
3、评估模型 :
网红指数 OCI 侧重于对网红传播力和影响力的量化评估,评估模型包括三大维度、十余项项量化指标,通过全网数据的采集,建立基于大数据的开放评估模型,具体的评估模型如下:
微博传播力 BCI:T 时间段内网红账号的官方微博传播力指数(具体见清博指数介绍);
微信传播力 WCI:T 时间段内网红账号的官方微信公众号传播力指数(具体见清博指数介绍);
网页搜索数 X1:T 时间段内网红相关(百度)网页搜索数量;
新闻搜索数 X2:T 时间段内网红相关(百度)新闻搜索数量;
微博搜索数 X3:T 时间段内网相关微博讨论/搜索数量;
微信文章搜索数 X4:T 时间段内网红相关微信文章(搜狗平台收录)搜索数量。
(其中,T 时间段为一周)
VR 网络影响力评估指数 V1.0
VR 网络影响力指数 WII-VR(Web Influence Index of VR)主要面向虚拟现实企业和产品的线上影响力进行评价。
头条号清博指数公式模型 TGI
头条号清博指数 TGI(Toutiao Gsdata Index)通过对头条号账号的活跃度和传播度、互动度来反映账号的传播能力和效果。
1、指标体系 :
采用数据:发文量 X1、阅读量 X2、分享量 X3、收藏量 X4、评论量 X5、订阅量 X6。
采用指标:主要通过活跃度、传播度和互动度三大维度来进行评价。建立如下指标体系:
1、指标体系 :
采用数据:发文量 X1、阅读量 X2、分享量 X3、收藏量 X4、评论量 X5、订阅量 X6。
采用指标:主要通过活跃度、传播度和互动度三大维度来进行评价。建立如下指标体系:
图 12 头条号清博指数公式模型 TGI
一级指标 | 二级指标 | 权重 | 标准化方法 |
---|---|---|---|
传播指数 (80%) | 日均阅读数 X1 篇均阅读数 X2 | 45% 55% | ln(X1+1) ln(X2+1 |
互动指数 (20%) | 日均评论数 X3 篇均评论数 X4 | 45% 55% | ln(X310+1) ln(X410+1) |
头条号清博指数 TGI
$$
TGI={0.8 * (0.45 * ln(x1 + 1) + 0.55 *ln(x2 + 1)) + 0.2 * (0.45 *ln(x3 * 10 + 1) + 0.55 * ln(x4 * 10 + 1))}*100
$$
其中:
- X1 为评估时间段内发文总数;
- X2 为评估时间段内发布文章的阅读总数;
- X3 为评估时间段内发布文章的分享总数;
- X4 为评估时间段内发布文章的被收藏总量;
- X5 为评估时间段内发布文章的评论总数;
- X6 为该账号被订阅的数量。
本章参考
[1]. 新榜指数白皮书 http://www.newrank.cn/public/about/reference.pdf
[2]. 新鲜出炉的网红 Top100,你认识几个? http://www.a.com.cn/info/domestic/2016/0415/288116.html
[3]. 清博指数 http://www.gsdata.cn/site/guide
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论