python - Scrapy - LinkExtractor 和设置 DEPTH

python - Scrapy - LinkExtractor 和设置 DEPTH_LIMIT 不起作用？

转载作者：行者123 更新时间：2023-12-01 09:17:39

27

4

因此，我传入一个 start_url，它是新闻文章页面(例如 cnn.com )。但是，我只想提取新闻文章本身，我不想跟踪文章页面上的任何链接。为此，我使用 CrawlSpider遵循以下规则:

rules = (
    Rule(LinkExtractor(allow=('regexToMatchArticleUrls',),
    deny=('someDenyUrls')), callback='parse_article_page'),
)

def parse_article_page(self,response): 
    #extracts the title, date, body, etc of article

我已启用 scrapy.spidermiddlewares.depth.DepthMiddleware并设置DEPTH_LIMIT = 1 .

但是，我仍然从恰好与 regexToMatchArticleUrls 匹配的各个文章页面抓取链接，因为它们是指向同一网站其他部分的链接(并且我无法使正则表达式更限制)。

但是，为什么当 DEPTH_LIMIT=1 时这些链接会被抓取呢？是否因为从 LinkExtractor 提取的每个链接都会重置 DEPTH_LIMIT，即。文章页面网址？有没有办法让 DEPTH_LIMIT 工作或扩展 DepthMiddleware 以不抓取文章页面上的链接？谢谢!

最佳答案

为了使 DepthMiddleware 正常工作，元属性需要从一个请求传递到另一个请求，否则，深度 在每个新请求后将被设置为 0。

不幸的是，默认情况下，CrawlSpider 不会将这个元属性从一个请求保留到下一个请求。

这可以通过使用蜘蛛中间件(middlewares.py)来解决:

from scrapy import Request


class StickyDepthSpiderMiddleware:

    def process_spider_output(self, response, result, spider):
        key_found = response.meta.get('depth', None)
        for x in result:
            if isinstance(x, Request) and key_found is not None:
                x.meta.setdefault('depth', key_found)
            yield x

另外，不要忘记将此中间件包含在您的 settings.py 中:

SPIDER_MIDDLEWARES = { '{your_project_name}.middlewares.StickyDepthSpiderMiddleware' : 100 }

关于python - Scrapy - LinkExtractor 和设置 DEPTH_LIMIT 不起作用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51092507/

27

4

0

文章推荐： python - PiCamera 将流数据保存到图像文件中

文章推荐： rest - CQ(R)S 使用 RPC 风格的 API 而不是 REST

文章推荐： typo3 - 在自定义 ViewHelper 中调整图像大小

文章推荐： python - Scrapy 数据流以及项目和项目加载器

python - Scrapy 如何从命令行参数设置 DEPTH_LIMIT
我目前在我正在构建的抓取工具的设置模块中设置了 DEPTH_LIMIT。我希望能够将深度限制作为命令行参数传递。我尝试了以下作为爬虫(及其变体)的构造函数: def __init__(self
python - DEPTH_LIMIT 到底指的是什么？目前的深度是否可以引用？
Scrapy 表明它有一个 DEPTH_LIMIT setting ，但没有具体说明什么是“深度”。在抓取页面方面，我看到“深度”指的是“网址的深度”，或http://somedomain.com/t
python - Scrapy:根据从自定义配置读取的值覆盖 DEPTH_LIMIT 变量
我正在使用 InitSpider 并在 def __init__(self, *a, **kw): 方法中读取自定义 json 配置. json 配置文件包含一个指令，我可以用它来控制爬网深度。我已经
python - Scrapy - LinkExtractor 和设置 DEPTH_LIMIT 不起作用？
因此，我传入一个 start_url，它是新闻文章页面(例如 cnn.com )。但是，我只想提取新闻文章本身，我不想跟踪文章页面上的任何链接。为此，我使用 CrawlSpider遵循以下规则: ru
python - 动态 DEPTH_LIMIT 作为 Scrapy 中的参数，从 Scrapyd 传递
我目前正在使用 Scrapyd 启动爬行蜘蛛和 DEPTH_LIMIT设置在 Scrapy 应用程序设置中进行设置。我想知道如何在 Scrapyd 中将深度限制作为参数传递，从而允许我根据用户的

首页

博学

6Ren·AI

商城

python - Scrapy - LinkExtractor 和设置 DEPTH_LIMIT 不起作用？