python - 使用 scrapy 的缓冲管道-6ren

python - 使用 scrapy 的缓冲管道

转载作者：行者123 更新时间：2023-11-28 20:21:19

24

4

我目前正在使用 Scrapy 0.24 抓取一个网站.该网站具有以下 url 格式:

www.site.com?category={0}&item={1}&page={2}

我有一个 MySQLStorePipeline 负责将每个废弃的项目存储在数据库中。但是我有 80 个类别、10 个项目和 15 个页面，这导致 80 * 10 * 15 = 120000 页。每个页面我生成 25 个 scrapy.Item，这给我们数据库中的 25 * 120000 = 3000000 行。

因此，每次管道接收到一个项目时，它都会插入到数据库中。这不是一个聪明的方法。我正在寻找一种方法来缓冲管道项目，例如，当我们收到 1000 个项目时，执行批量插入。我怎样才能做到这一点？

最佳答案

让管道将项目存储在列表中，并在它们达到一定长度时插入它们，并在蜘蛛关闭时插入。

class Pipeline(object):
    def __init__(self):
        super(Pipeline, self).__init__()
        self.items = []

    def process_item(self, item, spider):
        self.items.append(item)
        if len(self.items) >= 1000:
            self.insert_current_items()
        return item

    def insert_current_items(self):
        items = self.items
        self.items = []
        self.insert_to_database(items)

    def close_spider(self, spider):
        self.insert_current_items()

关于python - 使用 scrapy 的缓冲管道，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28264063/

24

4

0

文章推荐： python - 为odoo中的特定组发送通知

文章推荐： javascript - JQuery - 无法访问以 json 返回的变量

文章推荐： iphone - dispatch_async 进入无限循环

Android播放器继续回调，缓冲
我正在使用 MediaPlayer 在我的应用程序中播放在线 mp3 文件中的一些声音。但是，即使在播放完成后，我也会在控制台中收到一行又一行的回调和缓冲。 10-24 08:08:48.467
R 缓冲/放大多边形
我有一个简单的多边形。 dfr p = st_polygon(list(as.matrix(dfr))) > pbuf = st_buffer(p, .4) > plot(pbuf) > plot(
c++ - glMultiDrawArrays 缓冲
这可能又是一些愚蠢的问题，也许这确实是我所缺少的东西，但我很难让 glMultiDrawArrays 在 OpenGL4 中工作。我发现了很多这样的解释: for (int i = 0; i #i
algorithm - 缓冲/流式在线视频背后的算法是什么？
这仅仅是根据网络速度调整预缓冲内容量的问题吗？你是否在一开始就为此调整一次，每秒......？或者它更复杂 - 对您的网络速度记录历史进行采样并取平均值/中值并对其进行调整？最佳答案您的第二段总
c# - FFmpeg av_interleaved_write_frame 缓冲
嗨，我正在使用 FFmpeg Autogen C#。当我使用 mkv 输出作为文件并使用 h264 rtsp 流作为输入时，一切正常。编解码器是 libx264 ffmpeg.avio_open(
Python 文件 io 缓冲
我需要多次遍历几个文本文件的行。目前这是通过多个 with open("file.txt") as f: for line in f: # do something 虽然性能还
Haskell 默认 io 缓冲
昨天给同学们写了一个xinetd小练习:做一个反向回显程序。为了学习新东西，我尝试实现一个 Haskell 解决方案。琐碎的main = forever $ interact reverse不起作用
opengl - 用于遮挡剔除的分层 Z 缓冲
我正在阅读《实时渲染第三版》中的遮挡剔除部分，但我无法理解它是如何工作的。一些问题: “Z 金字塔”有何贡献？为什么我们需要多种分辨率的 Z 缓冲区？在书中，它的显示如下(左侧): 八叉树结构与用于一
java - 如何知道何时停止 InputStream 缓冲
我通过串行端口与设备通信。我已成功获取 InputStream 并读取设备发送的内容。但问题是，我根本不知道何时停止阅读并继续执行另一项任务。这是简化的代码: inputStream = ser
go - 缓冲 channel 阻止执行
我有以下代码: func (q *Queue) GetStreams(qi *QueueInfo) { channel := make(chan error, len(qi.AudioChun
iphone - MPMusicPlayerController 缓冲/预加载
在我调用 -play 之前，有没有办法让 MPMusicPlayerController 缓冲内容？还是在您设置队列时默认执行此操作？ AVAudioPlayer 有 -prepareToPlay 方
C# 缓冲 GZipStream 压缩
我正在编写一个数据库备份函数，从System.Diagnostics.Process 对象读取StandardOutput (StreamReader) 属性。我已成功写入普通文件。 //This
c# - 缓冲 PropertyChanged 事件
我有一个 wpf 应用程序，其中所有 viewModel 都继承自实现 INotifyPropertyChanged 的类 NotifyPropertyChangeClass(见下文)。我想限制
javascript - 用 LatestFrom 缓冲
我需要类似于 withLatestFrom 的东西，对应于下图: ---------A-----------------B-- -1-2-3------4------5-6-7-8---- -----
java - 缓冲 & 修改 OutputStream
有没有办法缓冲 OutputStream，在返回之前修改它？这是我的代码片段: public ServletOutputStream getOutputStream() throws IOExcept
android - 如何在android中实现协议(protocol)缓冲
目前我们有实现服务器通信协议(protocol)缓冲的需求。如果有人对此有任何意见，他们可以向我提供任何意见吗。最佳答案请查看以下 Protocol Buffer 链接。 http://code.
java - 缓冲 MySQL 查询或建立多个连接？
所以我目前正在开发一个 Java 应用程序，该应用程序应该将特定事件记录到数据库中。我希望每分钟最多有 15 到 20 次插入，基本上我想知道我是否应该为每个插入语句建立一个新连接，或者只要应用程序正
c++ - 两个线程之间是否有内存泄漏(缓冲，清空)
请考虑以下代码，包括两个线程 buffering_thread(用一条消息填充缓冲区指针)和 sending_thread(清空缓冲区): #include "msg.cpp" msg * buffe
html - 按顺序在线播放视频文件，视频之间没有延迟/缓冲
是否可以在线播放由两个或多个视频文件组成的视频？由于我原来的帖子不够清楚，这里有扩展的解释和问题。我的站点托管在 Linux/Apache/PHP 服务器上。我有 FLV/F4V 格式的视频文件。
java - RxJava 缓冲 - 忽略零项
这是我用于缓冲和转换传入事件的代码: public Publisher> logs(String eventId) { ConnectableObservable connectableObs

首页

博学

6Ren·AI

商城

python - 使用 scrapy 的缓冲管道