- 数据挖掘学习笔记--决策树 C4.5
- 数据挖掘十大算法--K-均值聚类算法
- 机器学习与数据挖掘-支持向量机(SVM)
- 机器学习与数据挖掘-支持向量机(SVM)(一)
- 支持向量机(SVM)(二)-- 拉格朗日对偶(Lagrange duality)
- 支持向量机(SVM)(三)-- 最优间隔分类器(optimal margin classifier)
- 支持向量机(四)-- 核函数
- 支持向量机(SVM)(五)-- SMO 算法详解
- 数据挖掘十大算法--Apriori 算法
- 数据挖掘十大算法----EM 算法(最大期望算法)
- PageRank
- 数据挖掘算法学习(八)Adaboost 算法
- 数据挖掘十大算法--K 近邻算法
- 机器学习与数据挖掘-K 最近邻(KNN) 算法的实现(java 和 python 版)
- 朴素贝叶斯分类器
- 数据挖掘十大经典算法--CART: 分类与回归树
PageRank
PageRank,网页排名,又称网页级别、Google 左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创办人拉里·佩奇(Larry Page)之姓来命名。Google 用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google 的创始人拉里·佩奇和谢尔盖·布林于 1998 年在斯坦福大学发明了这项技术。
PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据投票来源(甚至来源的来源,即链接到 A 页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
概念
PageRank 是 Google 专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由 Larry Page 和 Sergey Brin 在 20 世纪 90 年代后期发明。PageRank 实现了将链接价值概念作为排名因素。
PageRank 将对页面的链接看成投票,指示了重要性。
算法
PageRank 让链接来"投票"
一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的 PageRank 是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。
2005 年初,Google 为网页链接推出一项新属性 nofollow,使得网站管理员和网站作者可以做出一些 Google 不计票的链接,也就是说这些链接不算作"投票"。nofollow 的设置可以抵制评论垃圾。
假设一个由 4 个页面组成的小团体:A,B,C 和 D。如果所有页面都链向 A,那么 A 的 PR(PageRank)值将是 B,C 及 D 的 Pagerank 总和。
继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的 3 个页面。一个页面不能投票 2 次。所以 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的 PageRank 上。
换句话说,根据链出总数平分一个页面的 PR 值。
最后,所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”传递出去的 PageRank 会是 0,所以,Google 通过数学系统给了每个页面一个最小值:
说明:在 Sergey Brin 和 Lawrence Page 的 1998 年原文中给每一个页面设定的最小值是 1-d,而不是这里的(1-d)/N。 所以一个页面的 PageRank 是由其他页面的 PageRank 计算得到。Google 不断的重复计算每个页面的 PageRank。如果给每个页面一个随机 PageRank 值(非 0),那么经过不断的重复计算,这些页面的 PR 值会趋向于稳定,也就是收敛的状态。这就是搜索引擎使用它的原因。
指标
Google 工具条上的 PageRank 指标从 0 到 10。它似乎是一个对数标度算法,细节未知。PageRank 是 Google 的商标,其技术亦已经申请专利。
PageRank 近似于一个用户,是指在 Internet 上随机地单击链接将会到达特定网页的可能性。通常,能够从更多地方到达的网页更为重要,因此具有更高的 PageRank。每个到其他网页的链接,都增加了该网页的 PageRank。具有较高 PageRank 的网页一般都是通过更多其他网页的链接而提高的。
为了查看站点 PageRank,请安装 GOOGLE 工具条并启用 PageRank 特性,或者在 firefox 安装 SearchStatus 插件。但是请注意,GOOGLE 所指示的 PageRank 是个缓冲值,通常是过时的。
更新频率
PageRank 值每年只发布几次,有时就得使用过时信息,因此,PageRank 并不是一个非常精确的度量。GOOGLE 自己也似乎在使用更精确的值来进行排名。
在 GOOGLE 使用来构造搜索结果页面的采集算法中,PageRank 只是其中的一个因素。有可能在特定查询下,具有较低 PageRank 的页面仍然能够排在具有较高 PageRank 的页面前面。PageRank 也不一定是相关的,它使用链接来衡量整体受欢迎程度,而不是使用相关主题。GOOGLE 在计算搜索排名时也考虑链接的相关程度,因此 PageRank 不应该成为搜索引擎营销的唯一重点。构建相关链接,通常也自然会带来较高的 PageRank。此外,为了提高 PageRank 而特意构建太多的不相关链接也有可能损害站点的排名,因为 GOOGLE 试图检测并对不相关链接降分,认为这种链接是用于提高排名得分的。
PageRank 还被用户广泛认为是站点可靠的因素,因为用户倾向于相信带有较高值的站点更为著名或权威。当然,这就是 PageRank 所设计的目标。这个概念是 GOOGLE 所认可的,因此 GOOGLE 通过减少或清零 PageRank 来惩罚那些垃圾或不相关站点。
其它算法
GOOGLE PageRank 并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:
一、Hilltop 算法
二、ExpertRank
三、HITS
四、TrustRank
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论