gpt4 book ai didi

robots.txt - Googlebot 不尊重 Robots.txt

转载 作者:行者123 更新时间:2023-12-03 02:01:53 30 4
gpt4 key购买 nike

出于某种原因,当我检查 Google 网站站长工具的“分析 robots.txt”以查看哪些网址被我们的 robots.txt 文件阻止时,这不是我所期望的。这是文件开头的片段:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

对于 Googlebot 和 Mediapartners-Google,脚本文件夹中的任何内容都会被正确阻止。我可以看到两个机器人看到了正确的指令,因为 Googlebot 说脚本被第 7 行阻止,而 Mediapartners-Google 被第 4 行阻止。然而,我从第二个用户下的不允许的 url 中输入的任何其他 url -agent 指令不会被阻止!

我想知道我的评论或使用绝对网址是否把事情搞砸了......

任何见解都值得赞赏。谢谢。

最佳答案

它们被忽略的原因是您在 robots.txt 文件中拥有 Disallow 条目的完全限定 URL,而 specification不允许。 (您应该只指定相对路径,或使用/指定绝对路径)。请尝试以下操作:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

至于缓存,Google 平均每 24 小时尝试获取 robots.txt 文件的副本。

关于robots.txt - Googlebot 不尊重 Robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/463569/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com