gpt4 book ai didi

python - Scrapy Python Craigslist 爬虫

转载 作者:太空宇宙 更新时间:2023-11-03 11:32:26 25 4
gpt4 key购买 nike

我正在尝试使用 Scrapy 抓取 Craigslist 分类广告以提取待售商品。

我能够提取日期、帖子标题和帖子 url,但无法提取价格

出于某种原因,当前代码提取了所有的价格,但是当我在价格跨度查找之前删除//时,价格字段返回为空。

有人可以查看下面的代码并帮助我吗?

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist_sample.items import CraigslistSampleItem

class MySpider(BaseSpider):
name = "craig"
allowed_domains = ["craigslist.org"]
start_urls = ["http://longisland.craigslist.org/search/sss?sort=date&query=raptor%20660&srchType=T"]

def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//p")
items = []
for titles in titles:
item = CraigslistSampleItem()
item['date'] = titles.select('span[@class="itemdate"]/text()').extract()
item ["title"] = titles.select("a/text()").extract()
item ["link"] = titles.select("a/@href").extract()
item ['price'] = titles.select('//span[@class="itempp"]/text()').extract()
items.append(item)
return items

最佳答案

itempp 似乎在另一个元素 itempnr 中。如果您将 //span[@class="itempp"]/text() 更改为 span[@class="itempnr"]/span[@class= “itempp”]/text().

关于python - Scrapy Python Craigslist 爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15456577/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com