gpt4 book ai didi

html - 零碎的 : How to scrape

转载 作者:搜寻专家 更新时间:2023-10-31 08:51:05 24 4
gpt4 key购买 nike

我正在学习如何使用 scrapy api 进行抓取。

我想将文本抓取到 <h2 class > 中和链接到 <a href >但它不起作用(附件)

html page

我试图提取 <a > 中的文本标签

import scrapy

class PriceSpider(scrapy.Spider):
name = "annonce" #name of spider

def start_requests(self):
urls = [
'https://www.leboncoin.fr/ventes_immobilieres/offres/ile_de_france/?th=1',

]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
for annonce in response.css('section.tabsContent li').extract():
yield{
'title':annonce.css('a ::title').extract_first(),
}

最佳答案

试一试。您的 CSS 选择器存在严重缺陷。

import scrapy

class PriceSpider(scrapy.Spider):
name = "annonce" #name of spider

def start_requests(self):
urls = [
'https://www.leboncoin.fr/ventes_immobilieres/offres/ile_de_france/?th=1',

]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):
for annonce in response.css('.list_item'):
yield{
'link':annonce.css('::attr(href)').extract_first(),
'title':annonce.css('.item_title::text').extract_first().strip(),
}

还有一件事。打开您的 settings.py 文件并制作它:

ROBOTSTXT_OBEY = False

关于html - 零碎的 : How to scrape <ul> <li>,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46473211/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com