Google悄悄更新了他们的Google Search Central文档,指出他们现在索引csv文件。
这开辟了一种被抓取的新方式,或者如果发布者不希望他们的。csv文件被抓取,这可能意味着更新robots.txt以排除这些文件。
逗号分隔值(CSV)逗号分隔值(CSV)文件是以表格格式保存数据的文本文件,可以显示为电子表格。
CSV文件以纯文本形式包含数据,这意味着CSV文件不包含字体等样式元素,也不包含图像或活动链接。
它们在上传url列表以便爬行到尖叫青蛙之类的软件时很有用。
但是它们对于在电子表格中组织数据也很有用。
谷歌索引CSV文件的能力是一项新功能,因为在谷歌上搜索CSV文件的“文件类型”目前不会返回CSV文件。
搜索如下目前不返回CSV文件:
filetype: CSV site:.gov filetype: CSV site:.edu filetype: CSV site:.com谷歌已经间接使用CSV文件
关于谷歌索引CSV文件的奇怪之处是,谷歌的数据集搜索外观已经使用CSV文件,但显然只有在用结构化数据描述时才使用。
数据集结构化数据文档在Google的旧开发者文档(可在Archive.org上查看)中指出,CSV文件是出现在数据集搜索功能中的可接受标准。表格数据作为搜索外观的使用可以追溯到2018年,当时谷歌宣布,当数据伴随着结构化数据时,他们将在搜索中显示这类数据。
根据原始文档:
“当您提供支持信息时,数据集更容易找到,例如它们的名称,描述,创造者和分布格式提供结构化数据…
这里有一些例子可以有资格作为一个数据集:
一个表或一个CSV文件,有组织收集的一些数据表专有格式的文件,其中包含数据文件的集合,共同构成一些有意义的数据结构化对象与其他格式的数据,您可能想要加载到一个特殊的工具来处理图像捕捉数据文件相关的机器
谷歌在2022年更新了上述文档,并将其重定向到新的搜索中心文档。更新后的文档更清楚地表明,Google依赖于结构化数据,在其数据集搜索外观中使用CSV文件。但是这一改变是否意味着Google最终将抓取CSV文件并将其用于搜索显示(除了结构化数据中标记的表格数据之外)?
“当你提供数据集的支持信息,如它们的名称、描述、创建者和分发格式作为结构化数据时,数据集更容易找到。
Google的数据发现方法利用schema.org和其他元数据标准,这些标准可以添加到描述数据集的页面中…
这里有一些可以作为数据集的例子:
带有一些数据的表或CSV文件…
Google索引CSV与最近更新相关?核心算法更新的定义是当谷歌对其核心算法进行“重大”和“广泛的改变”时。CSV文件的索引和核心算法的更新几乎同时发生,这可能是一个巧合。但是Google是否已经改进了他们的爬虫引擎,以便能够索引CSV,或者这个功能是否已经存在。读取可索引文件类型的更新列表: