gpt4 book ai didi

python - Scrapy 应该在哪个文件/位置处理数据?

转载 作者:行者123 更新时间:2023-12-01 08:24:02 25 4
gpt4 key购买 nike

Scrapy 有几个允许处理抓取数据的点/位置:spideritemsspider middlewares。但我不明白我应该在哪里做对。我可以在所有这些地方处理一些抓取的数据。您能详细解释一下它们之间的区别吗?

例如:下载器中间件向蜘蛛返回一些数据(数字、短字符串、url、大量 HTML、列表等)。我应该用它们做什么、在哪里?我知道要做什么,但不清楚在哪里做......

最佳答案

Spiders是定义如何提取数据的要点,如 items 。如有疑问,请仅在蜘蛛中实现提取逻辑,而忘记其他 Scrapy 功能。

Item loaders , item pipelines , downloader middlewares , spider middlewaresextensions主要用于在具有多个蜘蛛的抓取项目中共享代码。

如果您发现自己在两个或多个蜘蛛中重复相同的代码,并且您决定停止重复自己,那么您应该进入这些组件并选择使用哪些组件来简化您的代码库,将现有的重复代码移动到这些类型的一个或多个组件。

这通常是比简单地在 Spider 子类之间使用类继承更好的方法。

关于各个组件的使用方法:

  • Item loaders用于共享提取逻辑(例如 XPath 和 CSS 选择器、正则表达式)以及字段值的预处理和后处理。

    例如:

    • 如果您正在为使用某种标准方法来标记要提取的数据的网站编写蜘蛛程序,例如 schema.org ,您可以在项目加载器上编写提取逻辑并在蜘蛛之间重用它。

    • 如果您想将项目字段的值始终切换为大写,您可以在项目加载器类上使用输出处理器,并在蜘蛛之间重用该项目加载器。

  • Item pipelines用于项目的后处理(不仅仅是特定项目中的项目数据)。

    常见用例包括删除重复项目(通过跟踪解析的每个项目的唯一标识数据)或将项目发送到数据库服务器或其他形式的存储(作为 feed exports 的灵活替代方案)。

  • Downloader middlewares用于有关处理响应请求的共享逻辑。

    常见用例包括实现反机器人软件检测和处理或代理处理。 (built-in downloader middlewares)

  • Spider middlewares用于蜘蛛之间的任何其他共享逻辑。它是最接近蜘蛛基类的。它可以处理来自蜘蛛的异常、初始请求等。( built-in spider middlewares )

  • Extensions用于对 Scrapy 本身进行更一般的更改。 (built-in extensions)

关于python - Scrapy 应该在哪个文件/位置处理数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54421455/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com