gpt4 book ai didi

Stack Overflow 中从下一页到 scrapy 的 Xpath

转载 作者:行者123 更新时间:2023-12-01 23:10:03 24 4
gpt4 key购买 nike

我正在尝试使用 scrapy 抓取 Stack Overflow,但我还不够清楚,无法制定获取下一页的规则。我不知道我选择的 XPath 是否也正确。

他遵循代码:

class StackCrawlerSpider(CrawlSpider):
name = 'stack_crawler'
allowed_domains = ['stackoverflow.com']
start_urls = [
'http://stackoverflow.com/questions?pagesize=50&sort=newest'
]
rules = [
Rule(LinkExtractor(allow=(), restrict_xpaths=('div[@class="pager fl"]/a[@class="page-numbers next"]/@href',)),
callback='parse_item', follow=True)
]

了解 scrapy 和 XPath 的人可以帮助我从下一页 ( http://stackoverflow.com/questions?pagesize=50&sort=newest ) 获取下一页并将其添加到规则中吗?

最佳答案

您需要选择根元素//然后转到span包含类 page-numbers next和文本next然后转到它的父项 ..这是 a标签。

//span[@class="page-numbers next"]/../@href

关于Stack Overflow 中从下一页到 scrapy 的 Xpath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53421924/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com