gpt4 book ai didi

python - 如何在 scrapy 中获取原始 start_url(在重定向之前)

转载 作者:太空狗 更新时间:2023-10-29 19:37:45 25 4
gpt4 key购买 nike

我正在使用 Scrapy 来抓取一些页面。我从 Excel 工作表中获取 start_urls,我需要将 url 保存在项目中。

class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]

def parse(self, response):
item = abcspiderItem()
item['url'] = response.url

问题是 url 被重定向到其他一些 url(因此在响应 url 中给出了其他内容)。如何获取从 excel 中获取的原始 url?

最佳答案

您可以在 response.request.meta['redirect_urls'] 中找到您需要的内容。

引自 docs :

The urls which the request goes through (while being redirected) can be found in the redirect_urls Request.meta key.

希望对您有所帮助。

关于python - 如何在 scrapy 中获取原始 start_url(在重定向之前),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16843088/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com