gpt4 book ai didi

cookies - Scrapy Cookie 操作如何?

转载 作者:行者123 更新时间:2023-12-01 16:43:07 25 4
gpt4 key购买 nike

我必须抓取一个网站,所以我使用Scrapy来做到这一点,但我需要传递一个cookie来绕过第一页(这是一种登录页面,你选择你的位置)

我在网上听说你需要使用基础Spider(不是爬行蜘蛛)来执行此操作,但我需要使用爬行蜘蛛来执行爬行,那么我需要做什么?

首先是基础蜘蛛?然后启动我的爬行蜘蛛?但我不知道cookie是否会在它们之间传递,或者我该怎么做?如何从另一个蜘蛛启动一个蜘蛛?

如何处理cookie?我尝试过这个

def start_requests(self):
yield Request(url='http://www.auchandrive.fr/drive/St-Quentin-985/', cookies={'auchanCook': '"985|"'})

但不工作

我的答案应该是here ,但是这家伙实在是躲躲闪闪,我不知道该怎么办。

最佳答案

首先,您需要在settings.py文件中添加打开的cookie

COOKIES_ENABLED = True

这是我的测试蜘蛛代码供您引用。我测试了一下,通过了

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request
from scrapy import log

class Stackoverflow23370004Spider(CrawlSpider):
name = 'auchandrive.fr'
allowed_domains = ["auchandrive.fr"]

target_url = "http://www.auchandrive.fr/drive/St-Quentin-985/"

def start_requests(self):
yield Request(self.target_url,cookies={'auchanCook': "985|"}, callback=self.parse_page)

def parse_page(self, response):
if 'St-Quentin-985' in response.url:
self.log("Passed : %r" % response.url,log.DEBUG)
else:
self.log("Failed : %r" % response.url,log.DEBUG)

您可以运行命令来测试并观察控制台输出:

scrapy crawl auchandrive.fr

关于cookies - Scrapy Cookie 操作如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23335332/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com