python - 如何在 scrapy python 中使用蜘蛛名称动态创建 csv 文件-6ren

python - 如何在 scrapy python 中使用蜘蛛名称动态创建 csv 文件

转载作者：太空宇宙更新时间：2023-11-04 01:34:11

24

4

我正在使用 scrapy 抓取一个站点并获取所有信息

实际上我有 3 个具有不同数据的蜘蛛，我在同一个文件夹中创建了这 3 个蜘蛛具有以下结构

scrapy.cfg
myproject/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
         __init__.py
           spider1.py
           spider2.py
           spider3.py

现在，当我们运行那个特定的蜘蛛时，我需要通过具有该蜘蛛名称的管道创建一个 csv 文件，例如

spider1.csv,spider2.csv,spider3.csv and so on(蜘蛛不限，可能更多)> 根据蜘蛛数量和蜘蛛名称我要创建csv文件

这里是否可以在pipeline.py中创建多个管道？如果存在多个蜘蛛，如何动态创建带有蜘蛛名称的 csv 文件

这里我有 3 个蜘蛛，我想一次运行所有 3 个蜘蛛(通过使用 scrapyd)，当我运行所有 3 个蜘蛛时，应该创建 3 个带有蜘蛛名称的 csv 文件。我想安排这个蜘蛛每 6 小时运行一次。如果我的解释有问题，请纠正我并让我知道如何实现这一点。

提前致谢

编辑代码:例如，我只粘贴了 spider1.py 的代码

spider1.py 中的代码:

class firstspider(BaseSpider):
    name = "spider1"
    domain_name = "www.example.com"
    start_urls = [
                   "www.example.com/headers/page-value"
                 ]
def parse(self, response):
    hxs = HtmlXPathSelector(response)
            ........
            .......
            item = Spider1Item()
            item['field1'] = some_result
            item['field2'] = some_result
            .....
            .....
            return item

Pipeline.py代码:

import csv
from csv import DictWriter

class firstspider_pipeline(object):

def __init__(self):
    self.brandCategoryCsv = csv.writer(open('../%s.csv' % (spider.name), 'wb'),
    delimiter=',', quoting=csv.QUOTE_MINIMAL)
    self.brandCategoryCsv.writerow(['field1', 'field2','field3','field4'])



def process_item(self, item, spider):
    self.brandCategoryCsv.writerow([item['field1'],
                                item['field2'],
                                item['field3'],
                                item['field4'])
    return item

正如我之前所说，当我运行带有蜘蛛名称的上述蜘蛛时，将动态创建一个带有蜘蛛名称的 csv 文件.....但是现在，如果我运行剩余的蜘蛛，如 spider2,spider3,spider3 ，应该生成具有相应蜘蛛名称的 csv 文件。

以上代码是否足以实现以上功能？
我们是否需要创建另一个管道类来创建另一个 csv 文件？(是否可以在单个 pipeline.py 文件中创建多个管道类？)
如果我们在单个 pipeline.py 文件中创建多个管道类，如何将特定蜘蛛与其相关管道类匹配

我想在保存到数据库时实现相同的功能，我的意思是当我运行 spider1 时，spider1 的所有数据都应该保存到数据库到一个具有相对 spider 名称的表中。这里对于每个蜘蛛我有不同的 sql 查询(所以需要编写不同的管道类)

这里的意思是当我们一次运行多个蜘蛛时(使用 scrapyd)，多个 csv 文件应该用它们的蜘蛛名称生成，并且应该用蜘蛛名称创建多个表(当保存到数据库时)

抱歉，如果有任何错误，我希望它得到很好的解释，如果没有，请告诉我。

最佳答案

大体上您的方向是正确的。

但有几点我可以立即指出:

您可能不需要(=不应该使用)类(class)! Python 不是 Java。如果您的类仅包含 2 个方法，而第一个是 __init__ 方法，您几乎可以肯定不需要类，但函数就可以了。更少的困惑 = 更好的代码!
SO 不适合进行一般代码审查。尝试 codereview反而。 SO 用户是一群友好的(大部分)和乐于助人的人，但他们不喜欢编写您的代码。他们喜欢解释、建议和纠正。因此，请尝试实现您的应用程序，如果您遇到无法自己解决的麻烦，请再次回来寻求建议。如上所述，您在概念上走在正确的轨道上，只需尝试实现即可。
你好像对类的概念有误解。至少只要是 python-classes:
1. 据我所知，您不需要 BaseSpider 类。基类和子类之间有什么区别？派生类不会使您的程序面向对象，或更好，或其他任何东西。搜索 Liskovs principle大致了解子类何时适用于 python。 (这有点相反的逻辑，但它是查看您是否应该子类化或更改您的方法的最快方法之一。)
2. 在类声明之后立即声明的 python 类变量与在 __init__ 方法中初始化的实例变量之间存在明显的区别。类变量在类的所有实例之间共享，其中实例变量对各个实例是私有(private)的。您几乎不想使用类变量，它是一种单例模式，在大多数情况下您希望避免这种情况，因为它会在调试时引起麻烦和不满。

因此我会像这样修改您的Spider类:

class Spider(object):
    def __init__(self, name, url=None):
        self.name = name
        self.domain_name = url
        self.start_urls = [url]
        ...

crawlers = [Spider('spider %s' %i) for i in xrange(4)] #creates a list of 4 spiders

但也许您使用的是声明式元类方法，但我无法从您发布的代码中看出这一点。

如果你想并行运行你的爬虫，你应该考虑threading模块。它用于连续 I/O 操作，与用于并行计算的 multiprocessing 模块相对。

您在概念上走在正确的轨道上。将您的项目分成小块，并在每次遇到错误时返回。

只是不要指望在这样的问题上得到完整的答案:“我不想重新创建 Google，我怎样才能以最好的方式和最短的时间做到这一点!” ;-)

关于python - 如何在 scrapy python 中使用蜘蛛名称动态创建 csv 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11343973/

24

4

0

文章推荐： javascript - 如何在socket.io中始终加入同一个房间？

文章推荐： c++ - 清除标准输入缓冲区(内存占用)

文章推荐： node.js - Node 应用程序因空字符串作为密码而崩溃

文章推荐： c - 在 C 中将字符串分配给 char 时会发生什么

MSSQL监控数据库的DDL操作(创建，修改，删除存储过程，创建，修改，删除表等)
前言：有时候，一个数据库有多个帐号，包括数据库管理员，开发人员，运维支撑人员等，可能有很多帐号都有比较大的权限，例如DDL操作权限(创建，修改，删除存储过程，创建，修改，删除表等），账户多了，管理
javascript - 使用 Storybook 创建 React App 创建 webpack 问题
所以我用 Create React App 创建并设置了一个大型 React 应用程序。最近我们开始使用 Storybook 来处理和创建组件。它很棒。但是，当我们尝试运行或构建应用程序时，我们不断遇
javascript - 创建 Angular Directive(指令)以重用代码 - 创建 html 时解析错误
遵循我正在创建的控件的代码片段。这个控件用在不同的地方，变量也不同。我正在尝试编写指令来清理代码，但在 {{}} 附近插入值时出现解析错误。刚接触 Angular ，无法确定我错过了什么。请帮忙。
java - 创建 JAX-RS 提供程序以从 InputStream 创建 Java Image
我正在尝试创建一个 image/jpeg jax-rs 提供程序类，它为我的基于 post rest 的 Web 服务创建一个图像。我无法制定请求来测试以下内容，最简单的测试方法是什么？ @POST
c - 当我使用 FILE 创建 txt 文件时，Dev C++ 创建 test.txt
我一直在 Windows 10 的模拟器中练习 c。后来我改用dev C++ IDE。当我在 C 中使用 FILE 时。创建的文件的名称为 test.txt ，而我给出了其他名称。请帮助解决它。下面
ios - 为什么我们不遵循使用 xib 创建 customTableViewCell 的相同过程，就像使用 xib 创建 customView 一样？
当我们创建自定义 View 时，我们将 View 文件的所有者设置为自定义类，并使用 initWithFrame 或 initWithCode 对其进行实例化。当我们创建 customUITable
创建 Pthreads
我正在尝试为函数 * Producer 创建一个线程，但用于创建线程的行显示错误。我为这句话加了星标，但我无法弄清楚它出了什么问题...... #include #include #include
创建、调用JavaScript对象的方法集锦
今天在做项目时，遇到了需要创建JavaScript对象的情况。所以Bing了一篇老外写的关于3种创建JavaScript对象的文章，看后跟着打了一遍代码。感觉方法挺好的，在这里与大家分享一下。 &
python - 创建 StringToSign
我正在阅读将查询字符串传递给 Amazon 的 S3 以进行身份验证的文档，但似乎无法理解 StringToSign 的创建和使用方式。我正在寻找一个具体示例来说明 (1) 如何构造 String
c# - 创建、不等待和确保任务完成的正确方法
前言:我对 C# 中任务的底层实现不太了解，只了解它们的用法。为我在下面屠宰的任何东西道歉: 对于“我怎样才能开始一项任务但不等待它？”这个问题，我找不到一个好的答案。在 C# 中。更具体地说，即使任
linq - 创建 ILookups
我有一个由一些复杂的表达式生成的 ILookup。假设这是按姓氏查找人。 (在我们简单的世界模型中，姓氏在家庭中是唯一的) ILookup families; 现在我有两个对如何构建感兴趣的查询。首
WIX bundle 创建
我试图创建一个 MSI，其中包含和 exe。在 WIX 中使用了捆绑选项。这样做时出错。有人可以帮我解决这个问题。下面是代码: 错误 error LGH
Yii 创建、更新具有不同字段的表单
在 Yii 中，Create 和 Update 通常使用相同的形式。因此，如果我在创建期间有电子邮件、密码、...other_fields...等字段，但我不想在更新期间专门显示电子邮件和密码字段，但
qt - 创建 QModelIndex
上周我一直在努力创建一个给定一行和一列的 QModelIndex。或者，我会满足于在已经存在的 QModelIndex 中更改 row() 的值。任何帮助，将不胜感激。编辑: QModelInd
C: 创建、传递和访问指向常量字符串的常量指针数组
出于某种原因，这不起作用: const char * str_reset_command = "\r\nReset"; const char * str_config_command = "\r\nC
r - 创建 "other"字段
现在，我有以下由 original.df %.% group_by(Category) %.% tally() %.% arrange(desc(n)) 创建的 data.frame。 DF 5),
vim - 创建〜/.vimrc后错误打开文件
在今天之前，我使用/etc/vim/vimrc来配置我的vim设置。今天，我想到了创建.vimrc文件。所以，我用 touch .vimrc cat /etc/vim/vimrc > .vimrc 所
iPhone:创建 MKAnnotation
我可以创建一个 MKAnnotation，还是只读的？我有坐标，但我发现使用 setCooperative 手动创建 MKAnnotation 并不容易。想法？最佳答案 MKAnnotation
iphone - 创建 NSDictionary
在以下代码中，第一个日志语句按预期显示小数，但第二个日志语句记录 NULL。我做错了什么？ NSDictionary *entry = [[NSDictionary alloc] initWithOb
php - 创建/添加多维数组值时的未定义偏移
我正在使用与此类似的代码动态添加到数组； $arrayF[$f+1][$y][$x+1] = $value+1; 但是我在错误报告中收到了这个: undefined offset :1 问题:尝试创

首页

博学

6Ren·AI

商城

python - 如何在 scrapy python 中使用蜘蛛名称动态创建 csv 文件