python - scrapy 不通过 POST 请求发送 Cookie

转载作者：行者123 更新时间：2023-11-28 18:16:17

25

4

我正在尝试使用 scrapy 提交 POST 请求，但它没有在 header 中发送 Cookie。

设置

在 OSX 下运行。创建一个 virtualenv 并运行 pip install Scrapy。然后我创建了一个默认蜘蛛:

(hotlanesbot)tollspider $ scrapy startproject vai66tolls
(hotlanesbot)tollspider $ cd vai66tolls/
(hotlanesbot)vai66tolls $ scrapy genspider vai66tolls-spider vai66tolls.com

然后我在 settings.py 中启用了 cookie 调试:

COOKIES_DEBUG = True

代码

蜘蛛的代码非常基本:解析站点然后 POST 表单并在 parse_eb 中处理响应。 vai66tolls_spider.py的内容:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http.cookies import CookieJar

class Vai66tollsSpiderSpider(scrapy.Spider):
    name = 'vai66tolls-spider'
    allowed_domains = ['vai66tolls.com']
    start_urls = ['http://vai66tolls.com/']

    def parse(self, response):
        filename = "/tmp/body.html"
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

        self.log('Initial Response headers: (%s)' % response.headers)

        # look for "cookie" things in response headers
        poss_cookies = response.headers.getlist('Set-Cookie')
        self.log('Set-Cookie?: (%s)' % poss_cookies)

        poss_cookies = response.headers.getlist('Cookie')
        self.log('Cookie?: (%s)' % poss_cookies)

        poss_cookies = response.headers.getlist('cookie')
        self.log('cookie?: (%s)' % poss_cookies)

        # Parse Eastbound
        r = scrapy.FormRequest.from_response(
            response,
            callback=self.parse_eb,
            )

        yield r

    def parse_eb(self, response):
        filename = "/tmp/eb.txt"
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)
        self.log('Request headers: %s' % response.request.headers)
        self.log('Request cookies: %s' % response.request.cookies)

您可以 view it on github here .

输出

我正在运行抓取工具:

(hotlanesbot)vai66tolls $ scrapy crawl vai66tolls-spider

在日志输出中，我看到“收到 cookie”DEBUG 语句，但没有看到我期望来自 the documentation 的“发送 cookie 到”消息/the CookiesMiddleware .

这是输出的一个较大的摘录:

2018-01-10 08:50:35 [scrapy.core.engine] INFO: Spider opened
2018-01-10 08:50:35 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-10 08:50:35 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-01-10 08:50:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://vai66tolls.com/robots.txt> from <GET http://vai66tolls.com/robots.txt>
2018-01-10 08:50:35 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://vai66tolls.com/robots.txt> (referer: None)
2018-01-10 08:50:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://vai66tolls.com/> from <GET http://vai66tolls.com/>
2018-01-10 08:50:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://vai66tolls.com/> (referer: None)
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Saved file /tmp/body.html
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Initial Response headers: ({'X-Powered-By': ['ASP.NET'], 'X-Aspnet-Version': ['4.0.30319'], 'Server': ['Microsoft-IIS/10.0'], 'Cache-Control': ['private'], 'Date': ['Wed, 10 Jan 2018 13:50:35 GMT'], 'Content-Type': ['text/html; charset=utf-8']})
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Set-Cookie?: ([])
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Cookie?: ([])
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: cookie?: ([])
2018-01-10 08:50:35 [scrapy.downloadermiddlewares.cookies] DEBUG: Received cookies from: <200 https://vai66tolls.com/>
Set-Cookie: ASP.NET_SessionId=im3zxr01stwmr02z0cisggbl; path=/; HttpOnly

2018-01-10 08:50:35 [scrapy.core.engine] DEBUG: Crawled (200) <POST https://vai66tolls.com/> (referer: https://vai66tolls.com/)
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Saved file /tmp/eb.txt
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Request headers: {'Accept-Language': ['en'], 'Accept-Encoding': ['gzip,deflate'], 'Accept': ['text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'], 'User-Agent': ['Scrapy/1.5.0 (+https://scrapy.org)'], 'Referer': ['https://vai66tolls.com/'], 'Content-Type': ['application/x-www-form-urlencoded']}
2018-01-10 08:50:35 [vai66tolls-spider] DEBUG: Request cookies: {}
2018-01-10 08:50:35 [scrapy.core.engine] INFO: Closing spider (finished)

(未显示的行指示 scrapy.downloadermiddlewares.cookies.CookiesMiddleware 包含在下载器中间件中)。

为了比较，如果我通过 Chrome 的调试器工具监控初始请求，我会看到以下响应 header :

cache-control:private
content-length:7289
content-type:text/plain; charset=utf-8
date:Tue, 09 Jan 2018 04:38:57 GMT
server:Microsoft-IIS/10.0
status:200
x-aspnet-version:4.0.30319
x-powered-by:ASP.NET

对于后续表单 POST，调试器工具报告这些请求 header :

:authority:vai66tolls.com
:method:POST
:path:/
:scheme:https
accept:*/*
accept-encoding:gzip, deflate, br
accept-language:en-US,en;q=0.9
cache-control:no-cache
content-length:4480
content-type:application/x-www-form-urlencoded; charset=UTF-8
cookie:ASP.NET_SessionId=up5ygvcjzjalnw2z1r1e0qeg
origin:https://vai66tolls.com
pragma:no-cache
referer:https://vai66tolls.com/
user-agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36
x-microsoftajax:Delta=true
x-requested-with:XMLHttpRequest

另外，对于 Chrome，我可以生成一个 curl 请求以正常工作。使用 curl 请求，我确认从 header 中删除 Cookie 足以阻止返回正确的响应。例如，我知道可能有其他需要发送的表单数据，但如果我没有 Cookie，它肯定会失败。

问题

为什么 scrapy 不在请求头中包含 Cookie？
有什么方法可以手动获取 scrapy 提取的 cookie，以便我可以将它添加到 FormRequest.from_response() 中？

最佳答案

检查您是否还有 COOKIES_ENABLED在设置中设置为 True。

关于第二个问题。您应该能够从 headers 中提取 cookie Response 对象的

cookies = response.headers.getlist('Set-Cookie')

您现在可以将它们手动插入到 FormRequest 中，将它们作为参数传递给 from_response 方法。我认为应该可以使用 Request 的 cookies 参数对象，或直接使用 headers 参数 (headers={'Cookie': xxx})。

关于python - scrapy 不通过 POST 请求发送 Cookie，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48161575/

25

4

0

文章推荐： html - 拆分标题 CSS

文章推荐： ios - Objective-C :带有 UIImage 的 PushViewController 不工作

文章推荐： javascript - jquery特定id文章内容不显示

文章推荐： python - 使用全域授权访问 gmail API

cookies - Vue-Cookies : this. $cookies 未定义
在我的主要组件中，我有: mounted() { window.$cookie.set('cookie_name', userName, expiringTime); }, 这会产生以下错误:
cookies - Cookie 的最大大小是多少？每个网站的浏览器中可以存储多少个 Cookie？
我正在学习 cookie，并且我想知道在编写依赖 cookie 来存储状态的 Web 应用程序时浏览器的支持情况。对于每个域/网站，可以向浏览器发送多少个 Cookie，大小是多少？如果发送并存储
cookies - cookie less 域中的 cookie
我已经为我的站点设置了一个 cdn，并将其用于 css、js 和图像。网站只提供那些文件我的问题是 firefox 中的页面速度插件对于我的图片请求，我看到了一个 cookie Cookie fc
cookies - jMeter Cookie 管理器不存储所有 cookie
在阅读了 Internet 上的文档和帖子后，我仍然无法解决 jMeter 中的 Cookie Manager 问题。我在响应头中得到了 sid ID，但它没有存储在我的 cookie 管理器中。
cookies - Set-Cookie 是否包含多个 cookie？
我正在 Node.JS 中处理一些类似浏览器的 cookie 处理，想知道从 NodeJS and HTTP Client - Are cookies supported? 开始对这段代码进行扩展到什
cookies - Owin cookie 身份验证设置-cookie 未保存在浏览器中
我正在此堆栈上构建自托管 Web 服务器:欧文南希网络 API 2 我正在使用 Katana 的 Microsoft.Owin.Security.Cookies 进行类似表单的身份验证。我得到了 Se
cookies - 是否可以代表用户在我的网站上禁用第三方 cookie？
我有一个从另一个网站加载资源的网站。我已经能够确定: 第三方网站在用户的浏览器上放置 cookie。如果我在浏览器设置中禁用第三方 cookie，第三方网站将无法再在浏览器上放置 cookie。该
cookies - 编辑和查看 Cookie
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
cookies - cookie 的持久性
我正在使用 python mechanize 制作登录脚本。我已经读到 Mechanize 的 Browser() 对象将自动处理 cookie 以供进一步请求。我怎样才能使这个 cookie 持久
cookies - 是否可以在域和子域之间共享 cookie
我正在尝试在 www.example.com 和 admin.other.example.com 之间共享 cookie 我已经能够使其与 other.example.com 一起使用，但是无法访问子
cookies - 设置子子域可访问的跨子域 cookie？
我设置了一个域为 .example.com 的 cookie .它适用于我网站上的每个一级子域，应该如此。但是，它不适用于 n 级子域，即 sub.subdomain.example.com和 to
cookies - 保存时间最长的 cookies
我想让用户尽可能长时间地登录。我应该使用什么？普通 cookies 持久性 cookie 快闪 cookies ip地址 session 或这些的某种组合？最佳答案我认为 Flash cook
cookies - 互联网广告商如何使用第三方 Cookie？
如果给定的 Web 服务器只能读取其域内设置的 cookie，那么 Internet 广告商如何从其网络外的网站跟踪用户的 Web 流量？是否存在某种“supercookie”全局广告系统，允许广告
cookies - 我们可以为一个域设置多少个 cookie？
我知道一个 cookie 可以容纳多少数据是有限制的，但是我们可以设置多少个 cookie 有限制吗？最佳答案来自 http://www.ietf.org/rfc/rfc2109.txt Prac
cookies - 谷歌分析 Cookie
如果我拒绝创建 cookie，则在我的浏览器中创建名称为 __utma、__utmb 等的 cookie。我认为这个 cookie 是用于谷歌分析的。任何人都知道谷歌如何创建这个 cookie，即使浏
cookies - 环境之间的沙盒 Cookie
我有一个生产环境和一个登台环境。我想知道我是否可以在环境之间沙箱 cookie。我的设置看起来像生产 domain.com - 前端 SPA api.domain.com - 后端节点分期 sta
cookies - cookie 是如何工作的？
我想知道浏览器(即 Firefox )和网站的交互。当我将用户名和密码提交到登录表单时，会发生什么？我认为该网站向我发送了一些 cookie，并通过检查这些 cookie 来授权我。 cookie
cookies - 跨域 Cookie
我在两个不同的域中有两个网络应用程序 WebApp1 和 WebApp2。我在 HttpResponse 的 WebApp1 中设置 cookie。如何从 WebApp2 中的 HttpReque
cookies - Dartium没有在websocket握手上发送httpOnly cookie
我正在使用Dartium“Version 34.0.1847.0 aura(264987)”，并从Dart创建一个websocket。但是，如果不是httpOnly，我的安全 session cook
Javascript Cookie 代码不存储 cookie/读取空 cookie 值？
我从 Headfirst Javascript 书中获取了用于 cookie 的代码。但由于某种原因，它不适用于我的浏览器。我主要使用chrome和ff，并且我在chrome中启用了本地cookie。

首页

博学

6Ren·AI

商城

python - scrapy 不通过 POST 请求发送 Cookie

设置

代码

输出

问题