浅谈Scrapy框架普通反爬虫机制的应对策略-6ren

浅谈Scrapy框架普通反爬虫机制的应对策略

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

26

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章浅谈Scrapy框架普通反爬虫机制的应对策略由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小.

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求;如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本.

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了.

这篇文章主要讨论使用Scrapy框架时，如何应对普通的反爬机制.

header检验。

最简单的反爬机制，就是检查HTTP请求的Headers信息，包括User-Agent,Referer、Cookies等.

User-Agent 。

User-Agent是检查用户所用客户端的种类和版本，在Scrapy中，通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件:

 
    ? 
   
         class RandomUserAgentMiddleware(object): @classmethod defprocess_request(cls, request, spider): ua = random.choice(spider.settings['USER_AGENT_LIST']) if ua: request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的User-Agent.

Referer 。

Referer是检查此请求由哪里来，通常可以做图片的盗链判断。在Scrapy中，如果某个页面url是通过之前爬取的页面提取到，Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段.

Cookies 。

网站可能会检测Cookie中session_id的使用次数，如果超过限制，就触发反爬策略。所以可以在Scrapy中设置COOKIES_ENABLED=False让请求不带Cookies.

也有网站强制开启Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带Cookies的请求，提取响应中Set-cookie字段信息并保存。爬取网页时，把存储起来的Cookies带入Headers中.

X-Forwarded-For 。

在请求头中添加X-Forwarded-For字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些.

X-Forwarded-For头一般格式如下。

X-Forwarded-For:client1,proxy1,proxy2 。

这里将client1，proxy1设置为随机IP地址，把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改，很多网站并不会信任这个值.

限制IP的请求数量。

如果某一IP的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理.

很简单，在下载器中间件中添加

 
    ? 
   
         request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP？

可以自己写一个IP代理获取和维护系统，定时从各种披露免费代理IP的网站爬取免费IP代理，然后定时扫描这些IP和端口是否可用，将不可用的代理IP及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理.

在requests库中添加带认证的代理很简单，。

 
    ? 
   
         proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

然而Scrapy不支持这种认证方式，需要将认证信息base64编码后，加入Headers的Proxy-Authorization字段:

 
    ? 
   
         importbase64 # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1] # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载。

现在越来越多的网站使用ajax动态加载内容，这时候可以先截取ajax请求分析一下，有可能根据ajax请求构造出相应的API请求的URL就可以直接获取想要的内容，通常是json格式，反而还不用去解析HTML.

然而，很多时候ajax请求都会经过后端鉴权，不能直接构造URL获取。这时就可以通过PhantomJS+Selenium模拟浏览器行为，抓取经过js渲染后的页面.

需要注意的是，使用Selenium后，请求不再由Scrapy的Downloader执行，所以之前添加的请求头等信息都会失效，需要在Selenium中重新添加。

 
    ? 
   
         headers = {...} for key, valuein headers.iteritems(): webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外，调用PhantomJs需要指定PhantomJs的可执行文件路径，通常是将该路径添加到系统的path路径，让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行，而crontab中的环境变量和系统的环境变量不同，所以就加载不到PhamtonJs需要的路径，所以最好是在申明时指定路径:

 
    ? 
   
         driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

总结。

以上就是本文关于浅谈Scrapy框架普通反爬虫机制的应对策略的全部内容，希望对大家有所帮助。如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！。

原文链接：http://www.raincent.com/content-85-8923-1.html 。

最后此篇关于浅谈Scrapy框架普通反爬虫机制的应对策略的文章就讲到这里了,如果你想了解更多关于浅谈Scrapy框架普通反爬虫机制的应对策略的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐： Python中的map()函数和reduce()函数的用法

文章推荐：机器学习模型python在线服务部署的两种实例

文章推荐： PyMongo安装使用笔记

文章推荐：一篇文章教会你利用Python网络爬虫成为斗图达人

css - gumby 框架 CSS 框架
我需要开发一个简单的网站，我通常使用 bootstrap CSS 框架，但是我想使用 Gumbyn，它允许我使用 16 列而不是 12 列。我想知道是否: 我可以轻松地改变绿色吗？如何使用固定布局
php - 框架 - 什么是 PHP 框架？
这个问题在这里已经有了答案: 关闭 13 年前。与直接编写 PHP 代码相比，使用 PHP 框架有哪些优点/缺点？
java - 集成 Play 框架 2.0 和 Spring 框架
我开发了一个 Spring/JPA 应用程序:服务、存储库和域层即将完成。唯一缺少的层是网络层。我正在考虑将 Playframework 2.0 用于 Web 层，但我不确定是否可以在我的 Play
java - 如何将我的新 Spring 框架 Web 应用程序与启用了单点登录 (SSO) 的 Struts 框架 Web 应用程序链接
我现有的 struts Web 应用程序具有单点登录功能。然后我将使用 spring 框架创建一个不同的 Web 应用程序。然后想要使用从 struts 应用程序登录的用户来链接新的 spring 应
java - Java Web 框架(Ninja 和 Spark 框架)出现 MySQL unicode 错误
我首先使用Spark框架和ORMLite处理网页上表单提交的数据，在提交中文字符时看到了unicode问题。我首先想到问题可能是由于ORMLite，因为我的MySQL数据库的字符集已设置为使用utf8
c# - 如何在 .net 解决方案中有两个项目，一个针对 4.0 框架，另一个针对 4.5 框架？
我有一个使用 .Net 4.5 功能的模块，我们的应用程序也适用于 XP 用户。所以我正在考虑将这个 .net 4.5 依赖模块移动到单独的项目中。我怎样才能有一个解决方案，其中有两个项目针对不同的版
php - 将 Ajax/UI JS 框架(ext、jquery-ui)与 MVC PHP 框架(zend、symfony)结合起来是个好主意吗？
我知道这是一个非常笼统的问题，但我想我并不是真的在寻找明确的答案。作为 PHP 框架的新手，我很难理解它。 Javascript 框架，尤其是带有 UI 扩展的框架，似乎通过将 JS 代码与设计分开来
ORM 框架
我需要收集一些关于现有 ORM 解决方案的信息。请随意编写任何编程语言。你能谈谈你用过的最好的 ORM 框架吗？为什么它比其他的更好？最佳答案我使用了 NHibernate 和 Entity
iPhone 框架
除了 Apple 的 SDK 之外，还有什么强大的 iPhone 框架可供开始开发？有没有可以加快开发时间的方法？最佳答案此类框架最大的是Three20 。 Facebook 和许多其他公司都使用
JavaScript 框架
有人可以启发我使用 NodeJS 的 Web 框架吗？我最近开始从免费代码营学习express js，虽然一切进展顺利，但我对express到底是什么感到困惑。是全栈框架吗？纯粹是为了后端吗？我发现您
AJAX 框架
您可以推荐哪种 Ajax 框架/工具包来构建使用 struts 的 Web 应用程序的 GUI？最佳答案我会说你的 AJAX/javascript 库选择应该较少取决于你的后端是如何实现的，而更多
Python 框架
我有生成以下错误的 python 代码: objc[36554]: Class TKApplication is implemented in both /Library/Frameworks/Tk.
Karate 框架 - 如何使用声明的变量作为请求对象的参数？
首先，很抱歉，如果我问的问题很明显，因为我没有编程背景，那我去吧: 我想运行一系列测试场景并在背景部分声明了几个变量(我打印它们以仔细检查它们是否已正确声明)，第一个是整数，另外两个字符串为你可以看到
ffmpeg - 选择用于视频捕获和录制的库/框架
在我们承担的一个项目中，我们正在寻找一个视频捕获和录制库。我们的基础工作(基于 google 搜索)表明 vlc (libvlc)、ffmpeg (libavcodec) 和 gstreamer 是三
multithreading - 我该如何打断Play中的实时任务!框架
我试过没有运气的情况下寻找某种功能来杀死/中断Play中的正常工作!框架。我想念什么吗？还是玩了!实际没有添加此功能？最佳答案 Java stop类中没有像Thread方法那样的东西，由于种种原因
logging - 最小开销分布式事件日志库/框架？
我们希望在我们的系统中保留所有重大事件的记录。例如，在数据库可能存储当前用户状态的地方，事件日志应记录对该状态的所有更改以及更改发生的时间。事件记录工具应该尽可能接近于事件引发器的零开销，应该容纳结
ActionScript tdd 框架
那里有 ActionScript 2.0/3.0 的测试框架列表吗？最佳答案 2010-05-18 更新由于这篇文章有点旧，而且我刚刚收到了赞成票，因此可能值得提供一些更新的信息，这样人们就不会追
python - numpy数组的快速条件重叠窗口(框架)
我有一个巨大的 numpy 数组列表(一维)，它们是不同事件的时间序列。每个点都有一个标签，我想根据其标签对 numpy 数组进行窗口化。我的标签是 0、1 和 2。每个窗口都有一个固定的大小 M。
playframework - 配置变量在玩!框架
我是 Play 的新手!并编写了我的第一个应用程序。这个应用程序有一组它依赖的 URL，从 XML 响应中提取数据并返回有效的 URL。此应用程序需要在不同的环境(Dev、Staging 和 Pro
Scala CQRS 框架
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

浅谈Scrapy框架普通反爬虫机制的应对策略