gpt4 book ai didi

cpu-usage - BingBot 和百度蜘蛛不尊重 robots.txt

转载 作者:行者123 更新时间:2023-12-04 15:35:37 26 4
gpt4 key购买 nike

在我的 CPU 使用率由于机器人淹没我的网站而突然超过 400% 之后,我创建了一个 robots.txt 并将该文件放在我的根目录中,例如“www.example.com/”:

User-agent: *
Disallow: /

现在谷歌尊重这个文件,我的谷歌日志文件中不再出现。
但是 BingBot 和百度蜘蛛仍然出现在我的日志中(而且很多)。

由于我的 CPU 使用率和带宽大幅增加,并且我的托管服务提供商即将暂停我的帐户,我首先删除了我的所有页面(以防出现讨厌的脚本),上传干净的页面,通过 IP 地址阻止所有机器人.htaccess & 然后创建该 robots.txt 文件。

我到处搜索以确认我做了正确的步骤(还没有尝试过 .htaccess 中的“重写”选项)。

任何人都可以确认我所做的应该可以完成这项工作吗? (自从我开始这个冒险以来,我的 CPU 使用率在 6 天内下降到 120%,但至少阻止 IP 地址应该将 CPU 使用率降低到我通常的 5-10%)。

最佳答案

如果这些是来自 Bingbot 和百度蜘蛛的合法蜘蛛,那么它们都应该按照给定的方式尊重您的 robots.txt 文件。但是,如果这些文件之前已被编入索引,他们可能需要一些时间才能拿起它并开始对其采取行动——这里可能就是这种情况。

它不适用于这种情况,但需要注意的是,Baiduspider 对 robots.txt 标准的解释在某些方面与其他主流机器人(即 Googlebot)略有不同。例如,虽然标准定义了 Disallow: 上的 URL 路径。记录简单地作为前缀,百度蜘蛛只会匹配整个目录/路径名。 Googlebot 将匹配 URL http://example.com/private/ 的位置当给出指令 Disallow: /priv ,百度蜘蛛不会。

引用:
http://www.baidu.com/search/robots_english.html

关于cpu-usage - BingBot 和百度蜘蛛不尊重 robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11423333/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com