玩转python爬虫之cookie使用方法-6ren

玩转python爬虫之cookie使用方法

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章玩转python爬虫之cookie使用方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

之前一篇文章我们学习了爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用.

为什么要使用Cookie呢?

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了.

在此之前呢，我们必须先介绍一个opener的概念.

1.Opener 。

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout.

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置.

2.Cookielib 。

cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar.

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar 。

1）获取Cookie保存到变量首先，我们先利用CookieJar对象实现获取cookie的功能，存储到变量中，先来感受一下。

 
    ? 
   
         import 
         urllib2 
        
         import 
         cookielib 
        
         #声明一个CookieJar对象实例来保存cookie 
        
         cookie  
         = 
         cookielib.CookieJar() 
        
         #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器 
        
         handler 
         = 
         urllib2.HTTPCookieProcessor(cookie) 
        
         #通过handler来构建opener 
        
         opener  
         = 
         urllib2.build_opener(handler) 
        
         #此处的open方法同urllib2的urlopen方法，也可以传入request 
        
         response  
         = 
         opener. 
         open 
         ( 
         'http://www.baidu.com' 
         ) 
        
         for 
         item  
         in 
         cookie: 
        
         print 
         'Name = ' 
         + 
         item.name 
        
         print 
         'Value = ' 
         + 
         item.value

我们使用以上方法将cookie保存到变量中，然后打印出了cookie中的值，运行结果如下。

 
    ? 
   
         Name  
         = 
         BAIDUID 
        
         Value  
         = 
         B07B663B645729F11F659C02AAE65B4C:FG 
         = 
         1 
        
         Name  
         = 
         BAIDUPSID 
        
         Value  
         = 
         B07B663B645729F11F659C02AAE65B4C 
        
         Name  
         = 
         H_PS_PSSID 
        
         Value  
         = 
         12527_11076_1438_10633 
        
         Name  
         = 
         BDSVRTM 
        
         Value  
         = 
         0 
        
         Name  
         = 
         BD_HOME 
        
         Value  
         = 
         0

2）保存Cookie到文件在上面的方法中，我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？这时，我们就要用到。

FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存。

 
    ? 
   
         import 
         cookielib 
        
         import 
         urllib2 
        
         #设置保存cookie的文件，同级目录下的cookie.txt 
        
         filename  
         = 
         'cookie.txt' 
        
         #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件 
        
         cookie  
         = 
         cookielib.MozillaCookieJar(filename) 
        
         #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器 
        
         handler  
         = 
         urllib2.HTTPCookieProcessor(cookie) 
        
         #通过handler来构建opener 
        
         opener  
         = 
         urllib2.build_opener(handler) 
        
         #创建一个请求，原理同urllib2的urlopen 
        
         response  
         = 
         opener. 
         open 
         ( 
         "http://www.baidu.com" 
         ) 
        
         #保存cookie到文件 
        
         cookie.save(ignore_discard 
         = 
         True 
         , ignore_expires 
         = 
         True 
         )

关于最后save方法的两个参数在此说明一下:

官方解释如下:

ignore_discard: save even cookies set to be discarded. ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists 由此可见，ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中，我们查看一下内容，附图如下。

玩转python爬虫之cookie使用方法

3）从文件中获取Cookie并访问那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站，感受一下。

 
    ? 
   
         import 
         cookielib 
        
         import 
         urllib2 
        
         #创建MozillaCookieJar实例对象 
        
         cookie  
         = 
         cookielib.MozillaCookieJar() 
        
         #从文件中读取cookie内容到变量 
        
         cookie.load( 
         'cookie.txt' 
         , ignore_discard 
         = 
         True 
         , ignore_expires 
         = 
         True 
         ) 
        
         #创建请求的request 
        
         req  
         = 
         urllib2.Request( 
         "http://www.baidu.com" 
         ) 
        
         #利用urllib2的build_opener方法创建一个opener 
        
         opener  
         = 
         urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) 
        
         response  
         = 
         opener. 
         open 
         (req) 
        
         print 
         response.read()

设想，如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度.

4）利用cookie模拟网站登录下面我们以我们学校的教育系统为例，利用cookie实现模拟登录，并将cookie信息保存到文本文件中，来感受一下cookie大法吧！。

注意：密码我改了啊，别偷偷登录本宫的选课系统 o(╯□╰)o 。

 
    ? 
   
         import 
         urllib 
        
         import 
         urllib2 
        
         import 
         cookielib 
        
         filename  
         = 
         'cookie.txt' 
        
         #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件 
        
         cookie  
         = 
         cookielib.MozillaCookieJar(filename) 
        
         opener  
         = 
         urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) 
        
         postdata  
         = 
         urllib.urlencode({ 
        
         'stuid' 
         : 
         '201200131012' 
         , 
        
         'pwd' 
         : 
         '23342321' 
        
         }) 
        
         #登录教务系统的URL 
        
         loginUrl  
         = 
         'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login' 
        
         #模拟登录，并把cookie保存到变量 
        
         result  
         = 
         opener. 
         open 
         (loginUrl,postdata) 
        
         #保存cookie到cookie.txt中 
        
         cookie.save(ignore_discard 
         = 
         True 
         , ignore_expires 
         = 
         True 
         ) 
        
         #利用cookie请求访问另一个网址，此网址是成绩查询网址 
        
         gradeUrl  
         = 
         'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre' 
        
         #请求访问成绩查询网址 
        
         result  
         = 
         opener. 
         open 
         (gradeUrl) 
        
         print 
         result.read()

以上程序的原理如下。

创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址.

如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦，是不是很酷炫?

好，小伙伴们要加油哦！我们现在可以顺利获取网站信息了，接下来就是把网站里面有效内容提取出来，下一篇文章我们去会会正则表达式！。

最后此篇关于玩转python爬虫之cookie使用方法的文章就讲到这里了,如果你想了解更多关于玩转python爬虫之cookie使用方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：浅谈Spring IoC容器的依赖注入原理

文章推荐：新手建站如何选择香港云服务器？

文章推荐：什么是BGP机房？BGP机房全知道

文章推荐： IDEA+maven+SpringBoot+JPA+Thymeleaf实现Crud及分页

cookies - Vue-Cookies : this. $cookies 未定义
在我的主要组件中，我有: mounted() { window.$cookie.set('cookie_name', userName, expiringTime); }, 这会产生以下错误:
cookies - Cookie 的最大大小是多少？每个网站的浏览器中可以存储多少个 Cookie？
我正在学习 cookie，并且我想知道在编写依赖 cookie 来存储状态的 Web 应用程序时浏览器的支持情况。对于每个域/网站，可以向浏览器发送多少个 Cookie，大小是多少？如果发送并存储
cookies - cookie less 域中的 cookie
我已经为我的站点设置了一个 cdn，并将其用于 css、js 和图像。网站只提供那些文件我的问题是 firefox 中的页面速度插件对于我的图片请求，我看到了一个 cookie Cookie fc
cookies - jMeter Cookie 管理器不存储所有 cookie
在阅读了 Internet 上的文档和帖子后，我仍然无法解决 jMeter 中的 Cookie Manager 问题。我在响应头中得到了 sid ID，但它没有存储在我的 cookie 管理器中。
cookies - Set-Cookie 是否包含多个 cookie？
我正在 Node.JS 中处理一些类似浏览器的 cookie 处理，想知道从 NodeJS and HTTP Client - Are cookies supported? 开始对这段代码进行扩展到什
cookies - Owin cookie 身份验证设置-cookie 未保存在浏览器中
我正在此堆栈上构建自托管 Web 服务器:欧文南希网络 API 2 我正在使用 Katana 的 Microsoft.Owin.Security.Cookies 进行类似表单的身份验证。我得到了 Se
cookies - 是否可以代表用户在我的网站上禁用第三方 cookie？
我有一个从另一个网站加载资源的网站。我已经能够确定: 第三方网站在用户的浏览器上放置 cookie。如果我在浏览器设置中禁用第三方 cookie，第三方网站将无法再在浏览器上放置 cookie。该
cookies - 编辑和查看 Cookie
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
cookies - cookie 的持久性
我正在使用 python mechanize 制作登录脚本。我已经读到 Mechanize 的 Browser() 对象将自动处理 cookie 以供进一步请求。我怎样才能使这个 cookie 持久
cookies - 是否可以在域和子域之间共享 cookie
我正在尝试在 www.example.com 和 admin.other.example.com 之间共享 cookie 我已经能够使其与 other.example.com 一起使用，但是无法访问子
cookies - 设置子子域可访问的跨子域 cookie？
我设置了一个域为 .example.com 的 cookie .它适用于我网站上的每个一级子域，应该如此。但是，它不适用于 n 级子域，即 sub.subdomain.example.com和 to
cookies - 保存时间最长的 cookies
我想让用户尽可能长时间地登录。我应该使用什么？普通 cookies 持久性 cookie 快闪 cookies ip地址 session 或这些的某种组合？最佳答案我认为 Flash cook
cookies - 互联网广告商如何使用第三方 Cookie？
如果给定的 Web 服务器只能读取其域内设置的 cookie，那么 Internet 广告商如何从其网络外的网站跟踪用户的 Web 流量？是否存在某种“supercookie”全局广告系统，允许广告
cookies - 我们可以为一个域设置多少个 cookie？
我知道一个 cookie 可以容纳多少数据是有限制的，但是我们可以设置多少个 cookie 有限制吗？最佳答案来自 http://www.ietf.org/rfc/rfc2109.txt Prac
cookies - 谷歌分析 Cookie
如果我拒绝创建 cookie，则在我的浏览器中创建名称为 __utma、__utmb 等的 cookie。我认为这个 cookie 是用于谷歌分析的。任何人都知道谷歌如何创建这个 cookie，即使浏
cookies - 环境之间的沙盒 Cookie
我有一个生产环境和一个登台环境。我想知道我是否可以在环境之间沙箱 cookie。我的设置看起来像生产 domain.com - 前端 SPA api.domain.com - 后端节点分期 sta
cookies - cookie 是如何工作的？
我想知道浏览器(即 Firefox )和网站的交互。当我将用户名和密码提交到登录表单时，会发生什么？我认为该网站向我发送了一些 cookie，并通过检查这些 cookie 来授权我。 cookie
cookies - 跨域 Cookie
我在两个不同的域中有两个网络应用程序 WebApp1 和 WebApp2。我在 HttpResponse 的 WebApp1 中设置 cookie。如何从 WebApp2 中的 HttpReque
cookies - Dartium没有在websocket握手上发送httpOnly cookie
我正在使用Dartium“Version 34.0.1847.0 aura(264987)”，并从Dart创建一个websocket。但是，如果不是httpOnly，我的安全 session cook
Javascript Cookie 代码不存储 cookie/读取空 cookie 值？
我从 Headfirst Javascript 书中获取了用于 cookie 的代码。但由于某种原因，它不适用于我的浏览器。我主要使用chrome和ff，并且我在chrome中启用了本地cookie。

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

玩转python爬虫之cookie使用方法