gpt4 book ai didi

php - 关于机器人和内容拦截的几个问题

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:48:21 25 4
gpt4 key购买 nike

我正在为机器人配置 robots.txt 文件,但无法真正理解我应该阻止它们访问哪些目录。当然,我已经在 Internet 上阅读了一些信息,但是我想知道的和目前发现的有一些差距。所以,如果你能帮助我并回答一些问题,那就太好了:

  • 我应该在 robots.txt 中阻止机器人做什么?没那么简单。例如,我在根目录中有一个 PHP 文件索引(包含几乎所有内容),其中包含引擎的目录,名为 ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的 INDEX 使用的数据。这里的重点是,如果我阻止机器人访问 ADMIN 目录,它是否仍会正常获取从 ADMIN 目录获取的 INDEX 中的所有数据?

  • 和以前一样,有一个 INDEX PHP 文件和一个 PHP 脚本,可以为下一页生成自动链接(当然是有限的;取决于 ADMIN 目录中的数据量)。这通常会被机器人索引为正常链接以及此链接之后的所有数据吗?

  • 如果我想阻止机器人访问 ADMIN 目录及其中的所有文件,写这个就够了吗?

    User-agent: *
    Disallow: /ADMIN/

最佳答案

机器人不关心您的内部服务器端系统(好吧,他们一开始就看不到它)。

他们像人类访问者一样访问您的网站:通过跟踪链接(来自您自己的网站、来自外部网站、来自您的站点地图等),有些人可能还会“猜测”URL。

所以重要的是您的网址。

如果您有一个不希望机器人访问(“抓取”)的 URL,请在您的 robots.txt 中禁止它。

这个 robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

将禁止抓取如下 URL:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

但仍允许抓取以下 URL:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/

关于php - 关于机器人和内容拦截的几个问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29031253/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com