gpt4 book ai didi

seo - 机器人 txt 文件语法我可以禁止所有然后只允许某些站点

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:44:28 24 4
gpt4 key购买 nike

您能否禁止所有站点,然后仅允许特定站点。我知道一种方法是禁止特定站点并允许所有站点。反过来也是有效的: E.G:

User-agent: *
Disallow: /
Allow: /siteOne/
Allow: /siteTwo/
Allow: /siteThree/

简单地禁止所有网站然后允许网站似乎比对所有网站都安全得多,他们必须考虑所有您不希望他们抓取的地方。

上面的这种方法是否会导致网站描述“由于该网站的 robots.txt - 了解更多信息,此结果的描述不可用”。在 Google 主页的自然排名中

更新 - 我进入了 Google 网站管理员工具 > 抓取 > robots.txt 测试器。起初,当我输入 siteTwo/default.asp 时,它显示已阻止并突出显示“禁止:/”行。离开并重新访问该工具后,它现在显示已允许。很奇怪。因此,如果这表示允许,我想知道为什么它会在网站描述中给出上面的消息?

更新 2 - 上面的 robots.txt 文件示例应该说 dirOne、dirTwo 而不是 siteOne、siteTwo。了解所有关于 robot.txt 的两个很好的链接是下面接受的答案中的 unor 的 robot.txt 规范和 robots exclusion standard也是必读的。这两页都解释了这一点。总之,是的,您可以禁止,他们允许,但始终将禁止放在最后。

最佳答案

(注意:您不是禁止/允许抓取 robots.txt 中的“站点”,而是抓取 URL。Disallow/Allow 的值是 always the beginning of a URL path 。 )

robots.txt specification 没有定义Allow
遵循此规范的消费者将简单地忽略任何 Allow 字段。一些消费者,例如 Google,扩展了规范并理解了Allow

  • 对于那些不知道 Allow 的消费者:一切都是不允许的。

  • 对于了解 Allow 的消费者:是的,您的 robots.txt 应该适合他们。一切都不允许,除了那些与 Allow 字段匹配的 URL。

假设您的 robots.txt 托管在 http://example.org/robots.txt,Google 将允许抓取以下网址:

  • http://example.org/siteOne/
  • http://example.org/siteOne/foo
  • http://example.org/siteOne/foo/
  • http://example.org/siteOne/foo.html

Google 将不允许抓取以下网址:

  • http://example.org/siteone/(区分大小写)
  • http://example.org/siteOne(缺少尾部斜线)
  • http://example.org/foo/siteOne/(不匹配路径开头)

关于seo - 机器人 txt 文件语法我可以禁止所有然后只允许某些站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29202340/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com