gpt4 book ai didi

python - Scrapy shell 不返回任何东西

转载 作者:行者123 更新时间:2023-11-28 01:24:31 25 4
gpt4 key购买 nike

我想从这个 website 中提取组织名称和有关它们的基本详细信息...response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()并且此命令不返回任何内容。我是网络抓取的新手。任何人都可以帮助我为其编写命令或纠正我错误的地方吗?

最佳答案

我已经检查过您的网站,一切正常,但 scrapy shell 存在问题。 scrapy shell 将 header 作为 Scrapy/{version}(+http://scrapy.org) 传递,该网站抛出 403 错误,您可以通过打印响应对象来验证这一点。

您需要做的是更改请求的 header ,假设更合适的 header headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}并将其与请求一起传递,然后您将获得响应。

要在 shell 中尝试它,请执行以下操作:

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
url = 'https://www.crunchbase.com/search/organization.companies'

请求如下:

req = scrapy.Request(url=url, headers=headers)
fetch(req)

现在您将获得 200 作为响应并使用您的 CSS 路径。

关于python - Scrapy shell 不返回任何东西,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51319079/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com