gpt4 book ai didi

python - 如何使用scrapy从页面中提取所有href内容

转载 作者:太空宇宙 更新时间:2023-11-04 00:45:26 25 4
gpt4 key购买 nike

我正在尝试抓取 this page .

我想使用 Scrapy 从给定网站获取所有链接

我正在尝试这种方式-

import scrapy
import unidecode
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from lxml import html


class ElementSpider(scrapy.Spider):
name = 'linkdata'

start_urls = ["https://www.goodreads.com/list/show/19793.I_Marked_My_Calendar_For_This_Book_s_Release",]


def parse(self, response):

links = response.xpath('//div[@id="all_votes"]/table[@class="tableList js-dataTooltip"]/div[@class="js-tooltipTrigger tooltipTrigger"]/a/@href').extract()
print links

但我没有得到任何输出。

最佳答案

我认为您的 xpath 有问题。试试这个-

for href in response.xpath('//div[@id="all_votes"]/table[@class="tableList js-dataTooltip"]/tr/td[2]/div[@class="js-tooltipTrigger tooltipTrigger"]/a/@href'):       
full_url = response.urljoin(href.extract())
print full_url

希望对您有所帮助:)

祝你好运......

关于python - 如何使用scrapy从页面中提取所有href内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39916940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com