gpt4 book ai didi

python - 如何使用 Scrapy 抓取 JSON 数据

转载 作者:行者123 更新时间:2023-12-01 09:20:46 26 4
gpt4 key购买 nike

我正在使用 scrapy,并尝试使用 scrapy shell 测试我的选择器,但没有任何效果。我正在尝试抓取该网站上的 JSON 数据。

https://web.archive.org/web/20180604230058/https://api.simon.com/v1.2/tenant?mallId=231&key=40A6F8C3-3678-410D-86A5-BAEE2804C8F2&lw=true

我尝试使用选择器抓取数据

   response.css("body > pre::text").extract()

但是,这似乎不起作用。不知道出了什么问题...

理想情况下,我只想从 JSON 数据中获取所有“Name: XXX”元素。因此,如果您知道如何具体选择它们,那也会非常有帮助!

目前我的代码如下

    # -*- coding: utf-8 -*-
import scrapy # needed to scrape
import sys # need to import xlrd
sys.path.extend("/Users/YoungFreeesh/anaconda3/lib/python3.6/site-
packages/") # needed to import xlrd
import xlrd # used to easily import xlsx file

class AmazonbotSpider(scrapy.Spider):
name = 'ArchiveSpider'

allowed_domains = ['web.archive.org']
start_urls =['https://web.archive.org/web/20180604230058/https://api.simon.com/v1.2/tenant?mallId=231&key=40A6F8C3-3678-410D-86A5-BAEE2804C8F2&lw=true']

def parse(self, response):
print(response.body)

最佳答案

由于内容位于 iframe 内,因此它是一个单独的页面,因此您必须首先导航到 iframe。就像链接一样:

urls = response.css('iframe::attr(src)').extract()
for url in urls :
yield scrapy.Request(url...., target=parse_iframe)

然后定义一个新的 parse_iframe 方法,用于解析 iframe 响应。

关于python - 如何使用 Scrapy 抓取 JSON 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50805355/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com