PageRank曾经是搜索的核心,是它造就了今天的谷歌帝国。即使你认为搜索已经不再是PageRank了,但不可否认的是,它在行业中一直是一个普遍存在的概念。每一个SEO专业人士都应该很好地掌握什么是PageRank——以及它今天仍然是什么。在本文中,我们将介绍:什么是PageRank?PageRank发展的历史。PageRank如何彻底改变了搜索。工具栏PageRank vs. PageRank。PageRank是如何工作的。PageRank如何在页面之间流动。PageRank还在使用吗?让我们深入了解一下。什么是PageRank?
由谷歌创始人拉里·佩奇和谢尔盖·布林创建,PageRank是一种基于互联网上所有超链接的综合相对优势的算法。大多数人认为这个名字是基于拉里·佩奇的姓氏,而另一些人则认为“Page”指的是一个网页。这两种说法可能都是对的,而且重叠可能是有意为之。当佩奇和布林还在斯坦福大学的时候,他们写了一篇题为《PageRank引文排名:给网络带来秩序》的论文。发表于1999年1月的论文演示了一种相对简单的评估网页强度的算法。这篇论文后来在美国获得了专利(但在欧洲不是,因为欧洲的数学公式是不可申请专利的)。斯坦福大学拥有这项专利,并已将其转让给谷歌。该专利目前将于2027年到期。图片来自patents.google.com, 2023年4月网页排名的演变历史20世纪90年代末,布林和佩奇在斯坦福大学的时候,都在研究信息检索方法。在那个时候,使用链接来计算出每个页面相对于另一个页面的“重要性”是一种革命性的页面排序方式。这在计算上很困难,但绝非不可能。这个想法很快就变成了Google,当时它在搜索界只是一条小鱼。这句话的意思是:“一些机构对谷歌的做法深信不疑,以至于谷歌最初推出搜索引擎时并没有盈利能力。当Google(当时被称为“BackRub”)是搜索引擎时,PageRank是用来在搜索引擎结果页面(serp)中对页面进行排名的算法。PageRank面临的挑战之一是数学计算虽然简单,但需要迭代处理。计算会在互联网上的每个页面和每个链接上运行多次。在千禧年之交,这种计算需要几天的时间来处理。在这段时间里,Google serp的排名上下波动。这些变化通常是不稳定的,因为每个页面都要计算新的pagerank。
这被称为“谷歌之舞”,每当谷歌开始每月更新时,它就会让当天的SEO专业人士停下脚步。
(Google Dance后来成为谷歌在山景城总部为搜索引擎优化专家举办的年度派对的名称。)PageRank后来的迭代引入了“可信种子”的概念来启动算法,而不是给互联网上的每个页面提供相同的初始值。”合理的冲浪者”该模型的另一个迭代引入了“合理冲浪者”的概念。这个模型表明,一个页面的PageRank可能不会与它链接到的页面平均分享,但可以根据用户可能点击它的可能性来权衡每个链接的相对价值。Google的算法最初在内部被认为是“防垃圾邮件”的,因为一个页面的重要性不仅取决于它的内容,还取决于链接到该页面的一种“投票系统”。不过,谷歌的信心并没有持续下去。随着反向链接行业的发展,PageRank开始出现问题。因此,谷歌将它从公众视野中撤出,但继续依靠它的排名算法。2016年,PageRank工具栏被撤销,最终,所有公众访问PageRank的权限都被限制了。但在这个时候,尤其是Majestic(一个SEO工具),已经能够很好地将自己的计算与PageRank联系起来。直到2017年1月,谷歌一直通过其“谷歌指南”文档和由马特·卡茨(Matt Cutts)领导的垃圾邮件团队的建议,鼓励SEO专业人士远离操纵链接。在这段时间里,Google的算法也在发生变化。该公司对PageRank的依赖减少了,在收购了MetaWeb及其专有的知识图谱(2014年称为“Freebase”)之后,谷歌开始以不同的方式对全球信息进行索引。
工具栏PageRank Vs. PageRank
Google最初对它的算法非常自豪,它很高兴公开分享它的计算结果给任何想看它的人。最引人注目的是Firefox等浏览器的工具栏扩展,它对互联网上的每个页面都给出了0到10分的分数。事实上,PageRank的分数范围更广,但0-10给了SEO专家和消费者一个即时评估互联网上任何页面重要性的方法。PageRank工具栏使算法非常可见,这也带来了复杂性。特别是,这意味着链接显然是“欺骗”谷歌最简单的方式。链接越多(或者,更准确地说,链接越好),一个页面在任何目标关键词的Google serp中的排名就越高。
这意味着二级市场形成了,购买和出售链接的URL的PageRank价值链接。这个问题在雅虎推出免费的雅虎搜索资源管理器后变得更加严重,任何人都可以通过它找到任何网页的链接。后来,两个工具——Moz和Majestic——通过在互联网上建立自己的索引和单独评估链接,建立在免费选项的基础上。其他搜索引擎严重依赖于单独分析每个页面上的内容。这些方法几乎无法识别有影响力的页面与仅使用随机(或操纵)文本编写的页面之间的区别。这意味着其他搜索引擎的检索方法对于SEO专业人员来说非常容易操作。因此,Google的PageRank算法是革命性的。
与“nGrams”这个相对简单的概念相结合,帮助建立相关性,谷歌找到了一个制胜的公式。它很快就超过了当时的主要在位者,如AltaVista和Inktomi(其中包括MSN)。通过在页面级别操作,Google也找到了一个比Yahoo和后来的DMOZ采用的基于“目录”的方法更具可扩展性的解决方案——尽管DMOZ(也称为开放目录项目)最初能够为Google提供自己的开源目录。PageRank的公式有多种形式,但可以用几句话来解释。
最初,每个页面上互联网给出了一个估计的PageRank得分。这可以是任意数。从历史上看,PageRank作为0到10之间的分数呈现给公众,但在实践中,估计不必从这个范围开始。然后将该页的PageRank除以该页外的链接数量,得到一个较小的部分。然后,PageRank被分发到链接的页面上——互联网上的其他页面也是如此。然后,对于算法的下一次迭代,每个页面的PageRank的新估计值是链接到每个给定页面的所有页面部分的总和。这个公式还包含了一个“阻尼系数”,它被描述为一个人在网上冲浪时完全停止冲浪的几率。在算法开始每次后续迭代之前,提出的新PageRank被阻尼因子约简。这个方法被重复,直到PageRank得分达到一个稳定的平衡。然后,为了方便起见,通常将得到的数字转换为更容易识别的0到10的范围。
图片来自作者,2023年4月
其中:
PR =下一次迭代算法中的PageRank。D =阻尼系数。j = Internet上的页码(如果每个页面都有唯一的页码)。n=互联网上的网页总数。I =算法的迭代次数(初始设置为0)。该公式也可以用矩阵形式表示。公式的问题和迭代公式有一些挑战。如果一个页面没有链接到任何其他页面,那么公式将不会达到平衡。因此,在这种情况下,PageRank将分布在互联网上的每个页面中。通过这种方式,即使一个没有进入链接的页面也可以获得一些PageRank——但它不会累积到足够重要的程度。另一个记录较少的挑战是新页面,虽然可能比旧页面更重要,但会有较低的PageRank。这意味着随着时间的推移,旧内容可以有不成比例的高PageRank。
“算法不考虑页面的运行时间。如果一个页面以5的值开始,并且有10个链接,那么它链接到的每个页面都被给予0.5 PageRank(减去阻尼因子)。通过这种方式,PageRank在互联网上的迭代之间流动。当新的网页出现在互联网上时,它们一开始只有很少的PageRank。但是当其他页面开始链接到这些页面时,它们的PageRank会随着时间的推移而增加。
PageRank还在用吗?虽然PageRank的公众访问权限在2016年被删除,但据信谷歌内部的搜索工程师仍然可以获得该分数。Yandex使用的因素泄漏表明,PageRank仍然是一个可以使用的因素。Google的工程师建议用一种新的近似值来代替原始形式的PageRank,这种近似值需要更少的处理能力来计算。虽然这个公式在谷歌如何对网页进行排名中不太重要,但它对每个网页都是不变的。不管谷歌可能会选择什么其他算法,PageRank很可能至今仍嵌入在这家搜索巨头的许多系统中。在这段视频中,Dixon更详细地解释了PageRank是如何工作的:span data-mce-type=”bookmark” style=”display: inline-block;宽度:0 px;溢出:隐藏;line-height: 0;” class=”mce_SELRES_start”>
Original Patents And Papers For More depth Reading:链接数据库中的节点排序方法。PageRank引文排名:给网络带来秩序大型超文本网络搜索引擎