gpt4 book ai didi

python - 抓取\蜘蛛防护

转载 作者:太空宇宙 更新时间:2023-11-03 19:24:49 28 4
gpt4 key购买 nike

有一个站点\资源提供一些一般统计信息以及搜索工具的界面。这种搜索操作成本高昂,因此我想限制频繁且连续(即自动)的搜索请求(来自人,而不是来自搜索引擎)。

我相信有很多现有的技术和框架可以执行一些情报抓取保护,所以我不必重新发明轮子。我通过 mod_wsgi 使用 Python 和 Apache。

我知道 mod_evasive(会尝试使用它),但我也对任何其他技术感兴趣。

最佳答案

如果有人正在寻找您的网站和数据,那么这确实是值得的 - 在这种情况下,没有什么可以阻止足够聪明的攻击者。

尽管有些事情值得尝试:

  • 记录特定 IP 和用户代理的搜索使用情况。当达到某些每分钟/每小时/每日阈值时阻止它们。
  • 使用潜在有害 IP 或威胁级别的黑名单(例如,您可以使用 Cloudflare API)
  • 缓存频繁的搜索结果以降低成本
  • 这可能有点疯狂,但您可以在图像上或通过 flash/java 小程序呈现该统计信息 - 这将使它们更难抓取
  • 与上一个有点相似:使用一些棘手的 API 来访问搜索结果,例如它可以是基于 WebSocket 的 ProtocolBuffers。因此,有人可能需要一个成熟的浏览器来获取它,或者至少必须围绕 Node.js 构建一些技巧。缺点 - 您将失去使用旧浏览器的合法客户。

关于python - 抓取\蜘蛛防护,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8562461/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com