gpt4 book ai didi

seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:32:25 25 4
gpt4 key购买 nike

Googlebot ( Googlebot/2.1 ) 似乎按照与 URL 长度相对应的顺序在新添加的网站上抓取 URL:s:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我在多个 (>10) 个完全独立的站点上看到过这种确切的模式,因此排序并非随机巧合。

为避免混淆:抓取顺序似乎是 Googlebot 运行方式中的一个非常小的细节。是的,这确实是一个小细节,但我还是想了解 Googlebot 如何抓取网络的技术细节。爬行排序就是这样的一个细节。如果您认为这条知识“无用”,那完全没问题,但请不要用答案污染此页面,因为您的贡献不会很有帮助。根据 SO 内部规则,没有帮助的答案将被否决。

我的问题是:

  1. (是的,您个人 - 而不是您阅读的博客等)是否观察到这种爬行模式?
  2. Google 是否正式记录了抓取模式?
  3. 选择这种抓取模式的原因可能是什么?

请尝试解决所有三 (3) 个问题。

最佳答案

From a web-development perspective this non-random crawling pattern can give unexpected consequences; such as non-random load patterns if one specific URL-length corresponds to one type of particularly heavy transaction, etc.

如果您的交易页面可供搜索引擎机器人访问,那么我称之为失败。搜索引擎机器人不应该有任何交易页面的访问权限!禁止在 robots.txt 中或在元机器人的页面上对其进行索引。

因此,您的三个问题毫无用处 - 谷歌没有记录他们使用的任何算法。此外,知道(或试图操纵)抓取顺序是完全没有用的,因为基本上您不关心并且希望尽可能多地索引页面(除了您在 robots.txt 中禁止的页面)。

关于seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1666464/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com