gpt4 book ai didi

apache - 如何将 Robots.txt 或 Apache 设置为仅在特定时间允许爬虫?

转载 作者:行者123 更新时间:2023-12-04 17:12:59 24 4
gpt4 key购买 nike

由于流量在 24 小时内分布不均,我想在偷窥时间禁止爬虫,并在非繁忙时间允许它们。

有没有办法做到这一点?

编辑:
感谢所有的好建议。

这是我们找到的另一个解决方案。

2bits.com 有一篇关于设置 IPTables 防火墙以限制来自某些 IP 地址的连接数的文章。

the article

IPTables的设置:

  • 使用 connlimit

  • 在较新的 Linux 内核中,有一个用于 iptables 的 connlimit 模块。它可以这样使用:

    iptables -I INPUT -p tcp -m connlimit --connlimit-above 5 -j REJECT

    这将来自每个 IP 地址的连接限制为不超过 5 个同时连接。这种“口粮”连接,并防止爬虫同时访问该站点。
    *

    最佳答案

    您无法确定爬虫的工作时间,但是使用 Crawl-delay您也许可以减少他们请求页面的频率。这对于防止他们快速请求页面很有用。

    例如:

    User-agent: *
    Crawl-delay: 5

    关于apache - 如何将 Robots.txt 或 Apache 设置为仅在特定时间允许爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4730376/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com