Pyspider中给爬虫伪造随机请求头的实例-6ren

Pyspider中给爬虫伪造随机请求头的实例

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Pyspider中给爬虫伪造随机请求头的实例由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

Pyspider 中采用了 tornado 库来做 http 请求，在请求过程中可以添加各种参数，例如请求链接超时时间，请求传输数据超时时间，请求头等等，但是根据pyspider的原始框架，给爬虫添加参数只能通过 crawl_config这个Python字典来完成(如下所示)，框架代码将这个字典中的参数转换成 task 数据，进行http请求。这个参数的缺点是不方便给每一次请求做随机请求头.

 
    ? 
   
         crawl_config = { 
        
         "user_agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", 
        
         "timeout": 120, 
        
         "connect_timeout": 60, 
        
         "retries": 5, 
        
         "fetch_type": 'js', 
        
         "auto_recrawl": True, 
        
         }

这里写出给爬虫添加随机请求头的方法:

1、编写脚本，将脚本放置在 pyspider 的 libs 文件夹下，命名为 header_switch.py 。

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- coding:utf-8 -*- 
        
         # Created on 2017-10-18 11:52:26 
        
         import random 
        
         import time 
        
         class HeadersSelector(object): 
        
         """ 
        
         Header 中缺少几个字段 Host 和 Cookie 
        
         """ 
        
         headers_1 = { 
        
         "Proxy-Connection": "keep-alive", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", 
        
         "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", 
        
         "DNT": "1", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4", 
        
         "Referer": "https://www.baidu.com/s?wd=%BC%96%E7%A0%81&rsv_spt=1&rsv_iqid=0x9fcbc99a0000b5d7&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&oq=If-None-Match&inputT=7282&rsv_t", 
        
         "Accept-Charset": "gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7", 
        
         } # 网上找的浏览器 
        
         headers_2 = { 
        
         "Proxy-Connection": "keep-alive", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0", 
        
         "Accept": "image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/*", 
        
         "DNT": "1", 
        
         "Referer": "https://www.baidu.com/link?url=c-FMHf06-ZPhoRM4tWduhraKXhnSm_RzjXZ-ZTFnPAvZN", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4", 
        
         } # window 7 系统浏览器 
        
         headers_3 = { 
        
         "Proxy-Connection": "keep-alive", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0", 
        
         "Accept": "image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/*", 
        
         "DNT": "1", 
        
         "Referer": "https://www.baidu.com/s?wd=http%B4%20Pragma&rsf=1&rsp=4&f=1&oq=Pragma&tn=baiduhome_pg&ie=utf-8&usm=3&rsv_idx=2&rsv_pq=e9bd5e5000010", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.7,en;q=0.6", 
        
         } # Linux 系统 firefox 浏览器 
        
         headers_4 = { 
        
         "Proxy-Connection": "keep-alive", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0", 
        
         "Accept": "*/*", 
        
         "DNT": "1", 
        
         "Referer": "https://www.baidu.com/link?url=c-FMHf06-ZPhoRM4tWduhraKXhnSm_RzjXZ-ZTFnP", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.7,en;q=0.6", 
        
         } # Win10 系统 firefox 浏览器 
        
         headers_5 = { 
        
         "Connection": "keep-alive", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64;) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063", 
        
         "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", 
        
         "Referer": "https://www.baidu.com/link?url=c-FMHf06-ZPhoRM4tWduhraKXhnSm_RzjXZ-", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.7,en;q=0.6", 
        
         "Accept-Charset": "gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7", 
        
         } # Win10 系统 Chrome 浏览器 
        
         headers_6 = { 
        
         "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", 
        
         "Accept-Encoding": "gzip, deflate, sdch", 
        
         "Accept-Language": "zh-CN,zh;q=0.8", 
        
         "Pragma": "no-cache", 
        
         "Cache-Control": "no-cache", 
        
         "Connection": "keep-alive", 
        
         "DNT": "1", 
        
         "Referer": "https://www.baidu.com/s?wd=If-None-Match&rsv_spt=1&rsv_iqid=0x9fcbc99a0000b5d7&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rq", 
        
         "Accept-Charset": "gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7", 
        
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0", 
        
         } # win10 系统浏览器 
        
         def __init__(self): 
        
         pass 
        
         def select_header(self): 
        
         n = random.randint(1, 6) 
        
         switch={ 
        
         1: self.headers_1 
        
         2: self.headers_2 
        
         3: self.headers_3 
        
         4: self.headers_4 
        
         5: self.headers_5 
        
         6: self.headers_6 
        
         } 
        
         headers = switch[n] 
        
         return headers

其中，我只写了6个请求头，如果爬虫的量非常大，完全可以写更多的请求头，甚至上百个，然后将 random的随机范围扩大，进行选择.

2、在pyspider 脚本中编写如下代码:

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- encoding: utf-8 -*- 
        
         # Created on 2017-08-18 11:52:26 
        
         from pyspider.libs.base_handler import * 
        
         from pyspider.addings.headers_switch import HeadersSelector 
        
         import sys 
        
         defaultencoding = 'utf-8' 
        
         if sys.getdefaultencoding() != defaultencoding: 
        
         reload(sys) 
        
         sys.setdefaultencoding(defaultencoding) 
        
         class Handler(BaseHandler): 
        
         crawl_config = { 
        
         "user_agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", 
        
         "timeout": 120, 
        
         "connect_timeout": 60, 
        
         "retries": 5, 
        
         "fetch_type": 'js', 
        
         "auto_recrawl": True, 
        
         } 
        
         @every(minutes=24 * 60) 
        
         def on_start(self): 
        
         header_slt = HeadersSelector() 
        
         header = header_slt.select_header() # 获取一个新的 header 
        
         # header["X-Requested-With"] = "XMLHttpRequest" 
        
         orig_href = 'http://sww.bjxch.gov.cn/gggs.html' 
        
         self.crawl(orig_href, 
        
         callback=self.index_page, 
        
         headers=header) # 请求头必须写在 crawl 里，cookies 从 response.cookies 中找 
        
         @config(age=24 * 60 * 60) 
        
         def index_page(self, response): 
        
         header_slt = HeadersSelector() 
        
         header = header_slt.select_header() # 获取一个新的 header 
        
         # header["X-Requested-With"] = "XMLHttpRequest" 
        
         if response.cookies: 
        
         header["Cookies"] = response.cookies

其中最重要的就是在每个回调函数 on_start，index_page 等等当中，每次调用时，都会实例化一个 header 选择器，给每一次请求添加不一样的 header。要注意添加的如下代码:

 
    ? 
   
         header_slt = HeadersSelector() 
        
         header = header_slt.select_header() # 获取一个新的 header 
        
         # header["X-Requested-With"] = "XMLHttpRequest" 
        
         header["Host"] = "www.baidu.com" 
        
         if response.cookies: 
        
         header["Cookies"] = response.cookies

当使用 XHR 发送 AJAX 请求时会带上 Header，常被用来判断是不是 Ajax 请求， headers 要添加 {‘X-Requested-With': ‘XMLHttpRequest'} 才能抓取到内容.

确定了 url 也就确定了请求头中的 Host，需要按需添加，urlparse包里给出了根据 url解析出 host的方法函数，直接调用netloc即可.

如果响应中有 cookie，就需要将 cookie 添加到请求头中.

如果还有别的伪装需求，自行添加.

如此即可实现随机请求头，完.

以上这篇Pyspider中给爬虫伪造随机请求头的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我.

原文链接：https://blog.csdn.net/dongrixinyu/article/details/78410282 。

最后此篇关于Pyspider中给爬虫伪造随机请求头的实例的文章就讲到这里了,如果你想了解更多关于Pyspider中给爬虫伪造随机请求头的实例的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： PHP+Mysql无刷新问答评论系统(源码)

文章推荐： Mybatis输入输出映射及动态SQL Review

文章推荐： PHP脚本自动识别验证码查询汽车违章

文章推荐： python通过伪装头部数据抵抗反爬虫的实例

Python 随机随机
我让随机数低于之前的随机数。 if Airplane==1: while icounter0: print "You have enoph fuel to get to New
随机 BigFloats Julia
是否可以生成 BigFloat 的随机数？类型均匀分布在区间 [0,1)? 我的意思是，因为 rand(BigFloat)不可用，看来我们必须使用 BigFloat(rand())为了那个结局。然而，
random - 无法创建抽象类的实例(随机)
我正在尝试学习 Kotlin，所以我正在学习互联网上的教程，其中讲师编写了一个与他们配合良好的代码，但它给我带来了错误。这是错误 Error:(26, 17) Kotlin: Cannot crea
java - 随机/随机比较器
是否有任何方法可以模拟 Collections.shuffle 的行为，而不使比较器容易受到排序算法实现的影响，从而保证结果的安全？我的意思是不违反类似的契约(Contract)等.. 最佳答案在
Lua:随机:百分比
我正在创建一个游戏，目前必须处理一些math.random问题。我的Lua能力不是那么强，你觉得怎么样您能制定一个使用 math.random 和给定百分比的算法吗？我的意思是这样的函数: fu
java - 如何在JavaFX场景中定位按钮？ (随机)
我想以某种方式让按钮在按下按钮时随机改变位置。我有一个想法如何解决这个问题，其中一个我在下面突出显示，但我已经认为这不是我需要的。 import javafx.application.Applicat
java - 随机#猜谜游戏无限循环
对于我的 Java 类(class)，我应该制作一个随机猜数字游戏。我一直陷入过去几天创建的循环中。程序的输出总是无限循环，我不明白为什么。非常感谢任何帮助。 /* This program wi
java - 随机(？)ElementNotVisibleException
我已经查看了涉及该主题的一些其他问题，但我没有在任何地方看到这个特定问题。我有一个点击 Web 元素的测试。我尝试通过 ID 和 XPath 引用它，并使用 wait.until() 等待它变得可见。
c# - 随机 InvalidCastException
我在具有自定义类的字典和列表中遇到了该异常。示例: List dsa = (List)Session["Display"]; 当我使用 Session 时，转换工作了 10-20 次..然后它开始抛
javascript - 数字游戏 - 随机
需要帮助以了解如何执行以下操作: 每隔 2 秒，这两个数字将生成包含从 1 到 3 的整数值的随机数。按下“匹配”按钮后，如果两个数字相同，则绿色标签上的数字增加 1。按下“匹配”按钮后，如果两个
C 随机，有问题
void getS(char *fileName){ FILE *src; if((src = fopen(fileName, "r")) == NULL){ prin
PHP MySQL 随机
如果我有 2 个具有以下字段的 MySQL 数据库... RequestDB: - Username - Category DisplayDB: - Username - Category
postgresql 随机()错误？
我有以下语句 select random() * 999 + 111 from generate_series(1,10) 结果是: 690,046183290426 983,732229881454
php - 随机标签不会消失
我有一个使用 3x4 CSS 网格构建的简单网站。但出于某种原因，当我在 chrome“检查”中检查页面时，有一个奇怪的空白显然不在我的代码中的标签。它会导致网站上出现额外的一行，从而导致出现
javascript动画后不透明度有时会(随机)改变
我有两个动画，一个是“过渡”，它在悬停时缩小图像，另一个是 animation2，其中图像的不透明度以周期性间隔重复变化。我有 animation2 在图像上进行，当我将鼠标悬停在它上面时，anim
c++ - 解释这个c++随机
如图所示post在 C++ 中有几种生成随机 float 的方法。但是我不完全理解答案的第三个选项: float r3 = LO + static_cast (rand()) /( static_c
javascript - 随机.addClass到多个div而不重复
我正在尝试将类添加到具有相同类的三个 div，但我不希望任何被添加的类重复。我有一个脚本可以将一个类添加到同时显示的 1、2 或 3 个 div。期望的效果是将图像显示为背景图像，并且在我的样式表中
python - 嵌套列表中的唯一值 - 随机
我有一个基本上可以工作的程序，它创建由用户设置的大小的嵌套列表，并根据用户输入重复。但是，我希望各个集合仅包含唯一值，目前这是我的输出。 > python3 testv.py Size of you
C# 随机(长)
我正在尝试基于 C# 中的种子生成一个数字。唯一的问题是种子太大而不能成为 int32。有什么方法可以像种子一样使用 long 吗？是的，种子必须很长。最佳答案这是我移植的 Java.Util.
c - 随机 float
我写这个函数是为了得到一个介于 0 .. 1 之间的伪随机 float : float randomFloat() { float r = (float)rand()/(float)RAN

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Pyspider中给爬虫伪造随机请求头的实例