谷歌信息检索:seo导论

当我们谈论信息检索时,我们倾向于把重点放在信息收集阶段——爬行。在此阶段,搜索引擎将发现并抓取它可以访问的url(数量和广度取决于我们通常称为抓取预算的其他因素)。在本文中,我们不打算关注抓取阶段,也不打算深入讨论索引是如何工作的。如果你想阅读更多关于抓取和索引的内容,你可以点击这里。在本文中,我将介绍一些信息检索的基础知识,如果理解了这些知识,可以帮助您更好地优化网页以获得排名性能。它还可以帮助您更好地分析算法变化和搜索引擎结果页面(SERP)更新。要理解和欣赏现代搜索引擎如何处理实际的信息检索,我们需要了解互联网上信息检索的历史,特别是它与搜索引擎过程的关系。关于数字信息检索和搜索引擎所采用的基础技术,我们可以追溯到20世纪60年代的康奈尔大学,杰拉德·索尔顿(Gerard Salton)领导的团队开发了SMART信息检索系统。Salton因开发和使用向量空间模型进行信息检索而受到赞誉。在数据科学界,向量空间模型被认为是搜索引擎“搜索”和平台(如Amazon)提供推荐的关键机制。当查询被表示为向量时,此方法允许处理器(如Google)用查询比较不同的文档。Google在其文档中将其称为向量相似性搜索,或“最近邻搜索”,由Donald Knuth在1973年定义。在传统的关键字搜索中,处理器会使用关键字、标签、标签等,在数据库中查找相关内容。

这是非常有限的,因为它缩小了数据库中的搜索字段,因为答案是二进制的是或否。这种方法在处理同义词和相关实体时也会受到限制。两个实体在接近度上越接近,向量之间的空间就越小,它们的相似性/准确性就越高。为了解决这个问题,并为具有多种常见解释的查询提供结果,Google使用向量相似性将各种含义、同义词和实体联系在一起。

一个很好的例子就是当你谷歌我的名字时。

对于Google来说,[dan taylor]可以是:

我,SEO人员。英国体育记者。当地新闻记者。阿甘正传里的丹·泰勒中尉。一个摄影师。模型制作。

使用传统的关键字搜索和二元是/否标准,你不会在第一页得到这样的结果。通过向量搜索,处理器可以根据数据库中不同实体和向量之间的相似性和关系产生搜索结果页面。你可以在这里阅读该公司的博客,了解更多关于谷歌如何在多个产品中使用它的信息。当以这种方式比较文档时,搜索引擎可能会使用查询词权重(Query Term Weighting, QTW)和相似系数的组合。

QTW对查询中的特定项应用权重,然后使用该权重使用向量空间模型计算相似系数,并使用余弦系数进行计算。余弦相似度度量两个向量之间的相似度,在文本分析中,用于度量文档的相似度。这可能是搜索引擎如何确定网站上重复内容和价值主张的一种机制。余弦在-1和1之间测量。传统上,在余弦相似图上,它将是均值介于0和1之间,其中0表示最大不相似,或正交,1表示最大相似。在搜索引擎优化中,我们经常谈论索引、索引和索引问题——但我们很少积极地谈论索引在搜索引擎中的作用。索引的目的是存储信息,这是谷歌通过分级索引系统和碎片来实现的,作为一个数据储存库。这是因为远程访问(抓取)网页,解析其内容,对其进行评分,然后实时呈现SERP是不现实的,无利可图的,并且最终用户体验很差。通常,现代搜索引擎索引不会包含每个文档的完整副本,而更像是一个已标记化的关键点和数据的数据库。然后文档本身将驻留在不同的缓存中。虽然我们不知道像Google这样的搜索引擎将会经历怎样的过程,作为他们信息检索系统的一部分,他们可能会有以下几个阶段:结构分析——文本格式和结构、列表、表格、图像等。词干化-将一个词的变体还原到词根。例如,“搜索”和“搜索”将简化为“搜索”。词法分析——将文档转换为单词列表,然后进行解析,以确定重要因素,如日期、作者和术语频率。需要注意的是,这与TF*IDF不同。

我们也希望在这个阶段,其他考虑因素和数据点被考虑在内,比如反向链接、来源类型、文档是否符合质量门槛、内部链接、主要内容/支持内容等。2016年,Paul Haahr对谷歌如何衡量其过程的“成功”以及如何应用检索后调整进行了深刻的见解。你可以在这里观看他的演讲。在大多数信息检索系统中,有两种主要的方法来衡量系统是否成功地返回一个好的结果集。

这些是精确度和召回率。

返回的相关文档的数量相对于返回的文档总数。最近几个月,许多网站的关键词排名都有所下降(比如一些奇怪的、边缘的关键词,它们可能没有排名的权利)。我们可以推测,搜索引擎正在改进信息检索系统,使其更加精确。

相关文档的数量与返回的相关文档的总数之比。

搜索引擎更倾向于精确,因为精确会带来更好的搜索结果页面和更高的用户满意度。在返回更多文档和处理更多数据方面,它的系统密集性也较低。由于所使用的公式和机制不同,信息检索的实践可能会很复杂。

例如:

词频/逆文档频率(TF*IDF)。潜在语义索引(LSI)和PLSI。阻止。因为我们并不完全知道或理解这个过程在搜索引擎中是如何运作的,所以我们应该更多地关注所提供的基础和指导,而不是尝试像TF*IDF这样的游戏参数(游戏邦注:它们在整体结果中的权重也会有所不同)。

 

滚动至顶部