gpt4 book ai didi

web-crawler - robots.txt 中的美元符号是什么意思

转载 作者:行者123 更新时间:2023-12-04 19:04:05 26 4
gpt4 key购买 nike

我对一个网站很好奇,想在 /s 做一些网络爬虫小路。 Its robots.txt :

User-Agent: *
Allow: /$
Allow: /debug/
Allow: /qa/
Allow: /wiki/
Allow: /cgi-bin/loginpage
Disallow: /

我的问题是:
  • 在这种情况下,美元符号是什么意思?
  • 以及爬取网址/s是否合适? ?关于 robots.txt 文件?
  • 最佳答案

    如果您关注 original robots.txt specification , $没有特殊含义,也没有Allow字段定义。符合标准的机器人必须忽略它不知道的字段,因此这样的机器人实际上会看到以下记录:

    User-Agent: *
    Disallow: /

    但是,原始robots.txt 规范已被各方扩展。但由于有问题的 robots.txt 的作者没有针对特定的机器人,我们不知道他们想到的是哪个“扩展”。

    通常(但不一定,因为它没有正式指定), Allow覆盖 Disallow 中指定的规则, 和 $表示 URL 路径的结尾。

    按照这种解释(例如, used by Google ), Allow: /$意思是:您可以抓取 / ,但您可能无法抓取 /a , /b等等。

    所以爬取路径以 /s 开头的 URL不会被允许(无论是根据原始规范,感谢 Disallow: / ,也不是根据谷歌的扩展)。

    关于web-crawler - robots.txt 中的美元符号是什么意思,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29455403/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com