gpt4 book ai didi

Facebook 爬虫机器人崩溃网站

转载 作者:行者123 更新时间:2023-11-30 05:20:23 26 4
gpt4 key购买 nike

Facebook 是否刚刚实现了一些网络爬虫?在过去的几天里,我的网站崩溃了几次,我追溯到 Facebook 的 IP 严重重载。

我试过谷歌搜索,但找不到任何关于通过 robots.txt 控制 Facebook 的爬虫机器人的权威资源。有关于添加以下内容的引用:

用户代理:facebookexternalhit/1.1抓取延迟:5

用户代理:facebookexternalhit/1.0抓取延迟:5

用户代理:facebookexternalhit/*抓取延迟:5

但我找不到任何关于 Facebook 机器人是否尊重 robots.txt 的具体引用。根据较早的消息来源,Facebook“不会抓取您的网站”。但这绝对是错误的,因为我的服务器日志显示他们以每秒许多页面的速度从 69.171.237.0/24 和 69.171.229.115/24 范围内的十几个 IP 抓取我的网站。

而且我找不到这方面的任何文献。我怀疑这是 FB 在过去几天刚刚实现的新功能,因为我的服务器以前从未崩溃过。

有人可以请教吗?

最佳答案

in this similar question on facebook and Crawl-delay 中所述, facebook 不认为自己是机器人,甚至不请求你的 robots.txt,更不用说关注它的内容了。

您可以实现自己的速率限制代码,如类似问题链接中所示。这个想法是在您的服务器容量过大或被特定用户代理淹没时简单地返回 http 代码 503。

那些为大型科技公司工作的人似乎不明白“改进缓存”是小公司没有预算来处理的事情。我们专注于为实际付款的客户提供服务,他们没有时间抵御来自“友好”公司的肆虐的网络机器人。

关于Facebook 爬虫机器人崩溃网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12880456/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com