python - 抓取\蜘蛛防护-6ren

python - 抓取\蜘蛛防护

转载作者：太空宇宙更新时间：2023-11-03 19:24:49

28

4

有一个站点\资源提供一些一般统计信息以及搜索工具的界面。这种搜索操作成本高昂，因此我想限制频繁且连续(即自动)的搜索请求(来自人，而不是来自搜索引擎)。

我相信有很多现有的技术和框架可以执行一些情报抓取保护，所以我不必重新发明轮子。我通过 mod_wsgi 使用 Python 和 Apache。

我知道 mod_evasive(会尝试使用它)，但我也对任何其他技术感兴趣。

最佳答案

如果有人正在寻找您的网站和数据，那么这确实是值得的 - 在这种情况下，没有什么可以阻止足够聪明的攻击者。

尽管有些事情值得尝试:

记录特定 IP 和用户代理的搜索使用情况。当达到某些每分钟/每小时/每日阈值时阻止它们。
使用潜在有害 IP 或威胁级别的黑名单(例如，您可以使用 Cloudflare API)
缓存频繁的搜索结果以降低成本
这可能有点疯狂，但您可以在图像上或通过 flash/java 小程序呈现该统计信息 - 这将使它们更难抓取
与上一个有点相似:使用一些棘手的 API 来访问搜索结果，例如它可以是基于 WebSocket 的 ProtocolBuffers。因此，有人可能需要一个成熟的浏览器来获取它，或者至少必须围绕 Node.js 构建一些技巧。缺点 - 您将失去使用旧浏览器的合法客户。

关于python - 抓取\蜘蛛防护，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8562461/

28

4

0

文章推荐： matlab - 在 MATLAB 中动态更改 for 循环

文章推荐： c# - 让 mstest 在所需位置输出我的日志文件

文章推荐： c# - 缺少 System.Diagnostics.Process 命名空间

文章推荐： python - 最Pythonic的方式来处理对话框？

Python scrapy 蜘蛛
我想使用这个过滤器从网站 http://www.quoka.de/immobilien/bueros-gewerbeflaechen 抓取数据: nur Angebote 如何使用scrapy设置这个
web-crawler - 制作网络爬虫/蜘蛛
我正在研究制作网络爬虫/蜘蛛，但是我需要有人指出正确的方向才能上手。基本上，我的Spider会搜索音频文件并将它们编入索引。我只是想知道是否有人对我应该如何做有任何想法。我听说用PHP完成它会非常
nutch - 蜘蛛 Nutch 会索引它已经在它的索引中的网页吗？
如果 Nutch 页面已经在索引中，它们会再次索引它们吗？如果是这样，我该如何更改？最佳答案是和否。默认情况下，Nutch 只会在 1 个月的某个时间段(从内存中)重新索引页面，如果页面没有更改，
python - 如何从另一个蜘蛛启动 Scrapy 蜘蛛
我在一个 Scrapy 项目中有两个蜘蛛。 Spider1 抓取页面列表或整个网站并分析内容。 Spider2 使用 Splash 获取 Google 上的 URL 并将该列表传递给 Spider1。
python - 运行时更新 scrapy 蜘蛛
我正在使用 python scrapy 包。有没有办法在蜘蛛运行时更新 scrapy 蜘蛛设置？我尝试了 telnet 控制台并通过以下方式更新设置: settings.set('AUTOTHROTT
mysql - 蜘蛛 MySQL 表
我正在尝试安装 Sphider 来搜索我的网站，当我尝试创建 MySQL 表时出现此错误: create table query_log ( query varchar(255), tim
python - 如何将两个用户定义的参数传递给 scrapy 蜘蛛
正在关注 How to pass a user defined argument in scrapy spider ，我写了下面这个简单的蜘蛛: import scrapy class Funda1S
python - 如何在一定数量的请求后停止 scrapy 蜘蛛？
我正在开发一个简单的抓取工具来获取 9 个搞笑帖子及其图片，但由于一些技术困难，我无法停止抓取工具，它继续抓取，这是我不想要的。我想增加计数器值并在 100 个帖子后停止。但是 9gag 页面的设计方
python - 如何像简单脚本一样以编程方式运行 scrapy 蜘蛛？
我创建了一个 Scrapy 蜘蛛。但我想将它作为脚本运行。我该怎么做。现在我可以在终端中通过这个命令运行: $ scrapy crawl book -o book.json 但我想像运行一个简单的 p
python - 以受控方式运行数十个 Scrapy 蜘蛛
我正在尝试构建一个系统来运行 a few dozen Scrapy spiders ，将结果保存到 S3，并在完成时通知我。 StackOverflow 上有几个类似的问题(例如 this one 和
python - 编写更快的 Python 蜘蛛
我正在用 Python 编写蜘蛛来抓取网站。问题是，我需要检查大约 250 万页，所以我真的需要一些帮助来优化它的速度。我需要做的是检查一定数量的页面，如果找到就记录该页面的链接。蜘蛛非常简单，它只
python - 对多个网站使用一个 Scrapy 蜘蛛
我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用 Scrapy。但是，我无法对域和允许的 URL regex:es 进行硬编码——这将在 GUI 中进行配置。我如何(尽可能简单地)使用 Sc
python - 在存储的数据上重播 Scrapy 蜘蛛
我已经开始使用 Scrapy抓取一些网站。如果我稍后向我的模型添加一个新字段或更改我的解析函数，我希望能够离线“重放”下载的原始数据以再次抓取它。看起来 Scrapy 有能力在某一时刻将原始数据存储在
python - 创建一个通用的 scrapy 蜘蛛
我的问题实际上是如何做与上一个问题相同的事情，但在 Scrapy 0.14 中。 Using one Scrapy spider for several websites 基本上，我有一个 GUI，它
python - 蜘蛛 IDE python 。按F5和F9运行有什么区别？
我有一个关于 python (Python 2.7) IDE Spider (2.3.5.2) 的具体问题今天我注意到我的脚本作为一个整体运行时有所不同，即当我按 F5 时。或者当我只运行一行或一个
linux - Crontab 作业无法正确运行多个 Scrapy 蜘蛛
我有一个 crontab 作业，运行一个 myautorun.sh 文件，其中包含 3 个蜘蛛: crontab -e 14 * * * * * ~bin/myautorun.sh myautorun
python /蜘蛛 : General Working Directory
到目前为止，我的代码可以打开一个文本文件，将其处理成一个 pandas 数据文件，然后导出到 excel。我正在与其他人共享此代码，我们在 Spyder 中都有相同的工作目录。所有代码都运行良好，我
用于 Openstack 登录的 Python 蜘蛛
最近想为Openstack添加自动登录功能。所以我为 openstack 编写了一个 python 蜘蛛，如下所示: import urllib import urllib2 import cooki
php - 如何使用 PHP 检测爬虫/蜘蛛？
如何使用 PHP 检测爬虫/蜘蛛？我目前正在做一个项目，我需要跟踪每个爬虫的访问。我知道你应该使用 HTTP_USER_AGENT 但我不太确定如何为此目的格式化代码而且我知道可以很容易地更改 U
python - 如何以编程方式设置和启动 Scrapy 蜘蛛(网址和设置)
我已经使用 scrapy 编写了一个工作爬虫，现在我想通过一个Django webapp来控制它，也就是说: 设置1个或多个start_urls 设置 1 个或多个 allowed_domains

首页

博学

6Ren·AI

商城

python - 抓取\蜘蛛防护