seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点？-6ren

seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点？

转载作者：塔克拉玛干更新时间：2023-11-03 02:32:25

Googlebot ( Googlebot/2.1 ) 似乎按照与 URL 长度相对应的顺序在新添加的网站上抓取 URL:s:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我在多个 (>10) 个完全独立的站点上看到过这种确切的模式，因此排序并非随机巧合。

为避免混淆:抓取顺序似乎是 Googlebot 运行方式中的一个非常小的细节。是的，这确实是一个小细节，但我还是想了解 Googlebot 如何抓取网络的技术细节。爬行排序就是这样的一个细节。如果您认为这条知识“无用”，那完全没问题，但请不要用答案污染此页面，因为您的贡献不会很有帮助。根据 SO 内部规则，没有帮助的答案将被否决。

我的问题是:

您(是的，您个人 - 而不是您阅读的博客等)是否观察到这种爬行模式？
Google 是否正式记录了抓取模式？
选择这种抓取模式的原因可能是什么？

请尝试解决所有三 (3) 个问题。

最佳答案

From a web-development perspective this non-random crawling pattern can give unexpected consequences; such as non-random load patterns if one specific URL-length corresponds to one type of particularly heavy transaction, etc.

如果您的交易页面可供搜索引擎机器人访问，那么我称之为失败。搜索引擎机器人不应该有任何交易页面的访问权限!禁止在 robots.txt 中或在元机器人的页面上对其进行索引。

因此，您的三个问题毫无用处 - 谷歌没有记录他们使用的任何算法。此外，知道(或试图操纵)抓取顺序是完全没有用的，因为基本上您不关心并且希望尽可能多地索引页面(除了您在 robots.txt 中禁止的页面)。

关于seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1666464/