gpt4 book ai didi

python - 使用Scrapy,无法抓取超过我的起始网址的链接

转载 作者:行者123 更新时间:2023-12-01 05:56:42 25 4
gpt4 key购买 nike

我一直致力于抓取网站,但遇到了困难。我需要从一个 url 开始,抓取源自该 url 的所有后续 url,以及源自这些 url 的所有 url,等等,使其尽可能细化。我搜索了以前的帖子,但仍然找不到解决我的问题的方法。

运行我的代码后,它会从我的起始网址中抓取链接,但不会抓取起始网址上的链接。我已经尝试解决这个问题有一段时间了,但无法解决。

我相信我的问题可能与我设置的规则有关,但不确定。我已经删除了允许的域,并确保我已将 follow=True 包含在我的代码中,并且我知道包含callback=parse 会是一个问题,但看来包含callback='parse_item' 则不是问题,而且我'我也尝试过删除它,但这没有什么区别。

我没有对管道或设置文件夹进行更改,因为我不确定要对它们做什么。我的项目非常标准,它是一个字段,我使用 from Hospitalone.items import HospitaloneItem 来加载它。我的其余代码如下:

class HopitaloneSpider(CrawlSpider):
name = 'example.org'
#allowed_domains = ['http://>example.org/']
start_urls = [
'http://example.org/'
]

rules = (
#Rule(SgmlLinkExtractor(allow='>example\.org', )),
Rule(SgmlLinkExtractor(allow=('\w+$', )), callback='parse_item', follow=True),
)

def parse(self, response):
hxs = HtmlXPathSelector(response)
item = HospitaloneItem()
item['name'] = hxs.select('//a').extract()
return item

任何帮助都会很棒。非常感谢。

最佳答案

我认为问题是因为您使用的是 CrawlSpider,所以您不能覆盖解析方法。这是一个可能对您有帮助的链接:http://doc.scrapy.org/en/latest/topics/spiders.html#crawling-rules

按照示例实现不同的解析函数

关于python - 使用Scrapy,无法抓取超过我的起始网址的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12186500/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com