- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
Googlebot ( Googlebot/2.1 ) 似乎按照与 URL 长度相对应的顺序在新添加的网站上抓取 URL:s:
.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
我在多个 (>10) 个完全独立的站点上看到过这种确切的模式,因此排序并非随机巧合。
为避免混淆:抓取顺序似乎是 Googlebot 运行方式中的一个非常小的细节。是的,这确实是一个小细节,但我还是想了解 Googlebot 如何抓取网络的技术细节。爬行排序就是这样的一个细节。如果您认为这条知识“无用”,那完全没问题,但请不要用答案污染此页面,因为您的贡献不会很有帮助。根据 SO 内部规则,没有帮助的答案将被否决。
我的问题是:
请尝试解决所有三 (3) 个问题。
最佳答案
From a web-development perspective this non-random crawling pattern can give unexpected consequences; such as non-random load patterns if one specific URL-length corresponds to one type of particularly heavy transaction, etc.
如果您的交易页面可供搜索引擎机器人访问,那么我称之为失败。搜索引擎机器人不应该有任何交易页面的访问权限!禁止在 robots.txt 中或在元机器人的页面上对其进行索引。
因此,您的三个问题毫无用处 - 谷歌没有记录他们使用的任何算法。此外,知道(或试图操纵)抓取顺序是完全没有用的,因为基本上您不关心并且希望尽可能多地索引页面(除了您在 robots.txt 中禁止的页面)。
关于seo - 为什么 Googlebot 按 URL 长度的升序遍历新添加的站点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1666464/
我是一名优秀的程序员,十分优秀!