gpt4 book ai didi

python - scrapy 只关注一个深度的外部链接

转载 作者:太空宇宙 更新时间:2023-11-04 04:58:50 25 4
gpt4 key购买 nike

假设我正在抓取 foo.com。 foo.com 有几个指向自身的内部链接,还有一些外部链接,例如:

foo.com/hello
foo.com/contact
bar.com
holla.com

我希望 scrapy 抓取所有内部链接,但也只抓取外部链接的一个深度,例如我希望 scrapy 转到 bar.comholla.com但我不希望它转到 bar.com 中的任何其他链接,所以只有一个深度。

这可能吗?这种情况下的配置是什么?

谢谢。

最佳答案

你可以让你的爬虫基于 CrawlSpider 类,并使用 Rule 和实现的 process_links 方法,你传递给 Rule 。该方法将在不需要的链接被关注之前过滤掉它们。来自documentation :

process_links is a callable, or a string (in which case a method from the spider object with that name will be used) which will be called for each list of links extracted from each response using the specified link_extractor. This is mainly used for filtering purposes.

关于python - scrapy 只关注一个深度的外部链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46341974/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com