Python 多处理池；等待迭代完成-6ren

Python 多处理池；等待迭代完成

转载作者：太空宇宙更新时间：2023-11-03 21:45:52

26

4

我有一个大型数据集，我希望我的脚本对其进行迭代，对每个条目执行一系列操作，然后安排结果存储到 HDD。由于数据集可能相对较大(~250 GB)，RAM 可用性要求一次以 1000 个条目的 block (我在下面的代码中称为 dataBlock)的形式处理数据集。我还使用 multiprocessing.Pool 类来方便使用多个 CPU 核心来完成此任务。

我基本上已经做好了安排，以便将每个数据 block 传递给池，池使用 imap 方法在数据 block 上执行所需的计算，池返回计算结果，然后数据 block 的结果被附加到列表中。此列表 (processed_data) 是这组计算所需的最终产品。

processed_data = []

multiprocessing.Pool(processor_cap) as pool:

    for blockIndex, block in enumerate(range(1000, height-remainder, 1000)):

        #Read-in 1000 spectra from source dataset
        dataBlock = np.asarray(raw_dset[blockIndex*1000:block][:])

        '''
        Pass data block to processor pool, which iterates through data
        block. Each spectrum is handed off to a CPU in the pool,
        which centroids it and appends the result to "processed_block".
        '''
        processed_block = pool.imap(centroid_spectrum, dataBlock)

        #Append processed spectra to processed data bin
        for idx, processed_spectrum in enumerate(processed_block):
            processed_data.append(processed_spectrum)

我想知道的是如何让脚本在调用pool.imap()之后暂停，直到返回完整的processed_block而不关闭水池。目前，它直接进入 for 循环，该循环紧随上面的代码片段，而不等待 processed_block 由 pool.imap 返回。我尝试在 pool.imap() 调用后立即调用 pool.join() ，但它只返回 ***AssertionError 并且再次继续下面的 for 循环。一旦所有数据 block 都被送入池中，就在脚本末尾的下方，我最终可以在脚本中成功调用 pool.close() 和 pool.join()上面最外面的 for 循环。

预先感谢您的帮助!

最佳答案

如果不付出很大的努力来改变周围的事情，就很难使用你的例子；但是如果您有一个来自 imap() 调用的迭代器，那么您可能会考虑在到达 for 循环之前将迭代器的元素解析为列表:

processed_block = pool.imap(centroid_spectrum, dataBlock)
processed_block = [ x for x in processed_block ] # convert from an iterator to a list
for idx, processed_spectrum in enumerate(processed_block):

等等

这样可以达到你想要的效果吗？

关于Python 多处理池；等待迭代完成，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52505225/

26

4

0

文章推荐： css - 不透明度在不同页面上显示不同的阴影

文章推荐： python - 如何在 windows 7 x64 上的 python 3.4 中使用 OpenCV？

文章推荐： html - 将文本垂直居中对齐，位于图像中间 - 具有自动行高

文章推荐： c# - 用c#声明javascript变量

azure - 为什么我可以连接到 Synapse 无服务器 SQL 池，但无法连接到同一 Synapse 工作区中的专用 SQL 池
最近，我们将专用 SQL 池部署到生产中的 Synapse 工作区。在开发中，我们可以访问无服务器 SQL 池和专用 SQL 池。但是，在生产中，我们可以访问无服务器 SQL 池，但无法访问专用 SQ
WCF 客户端连接缓存/池
假设您从一个项目公开 WCF 服务，并使用“添加服务引用”(在本例中为 Framework 3.5 WPF 应用程序)在另一个项目中使用它。当您重新实例化 ClientBase 派生代理时，Clie
Python 池生成池
我有一个函数，它使用 multiprocessing.Pool 并行处理一个数据集中的所有数据。 from multiprocessing import Pool ... def func():
带有工作进程的 python 池
我正在尝试使用进程对象在 python 中使用工作池。每个 worker (一个进程)进行一些初始化(花费大量时间)，传递一系列作业(理想情况下使用 map())，并返回一些东西。除此之外，不需要任何
ZFS 列表与 ZFS 池
我是软件工程师，最近我构建了我的 Linux 机器，想探索更多系统管理员类型的任务。我已经探索并阅读了很多关于 ZFS 的内容，但我越来越困惑，因为每篇文章对它的描述都不一样。 Everything
zfs - 如何在池繁忙时销毁 ZFS 池？
我有 zfs 池: $ sudo zpool status lxd pool: lxd state: ONLINE scan: none requested config: NAME
multithreading - 斯卡拉的 Actor 池
我有一个基于 Actor 的项目，对于其中的一部分，我必须使用一些接收消息的 Actor ，然后一个 Actor 分别分配给每个请求，每个 Actor 负责执行其消息请求，所以我需要类似线程的东西我的
solaris - 以可写方式打开 ZFS 池
我已经使用 QEMU 模拟器成功地将 FreeBSD 安装到原始图像文件中。我已经使用 ZFS 文件系统 (ZFS POOL) 格式化了图像文件。使用下面的命令我已经成功地挂载了准备好由 zpool
python - 不断运行的 worker 池
我正在使用 multiprocessor.Pool并行处理一些文件。该代码等待接收文件，然后使用 Pool.apply_async 将该文件发送给工作人员。，然后处理文件。这段代码应该一直在运行，
scala - 具有关闭连接的 BoneCp 池
我正在使用带有光滑的 Bonecp 数据源。并发现池包含关闭的连接所以我总是遇到这个异常 java.sql.SQLException: Connection is closed! at com
ruby-on-rails - 如何在Sidekiq中切换Redis主机/池？
我有apartment gem的 Multi-Tenancy Rails应用程序，我可以使用apartment-sidekiq在每个工作程序中成功切换数据库租户。但是，sidekiq worker 正
ZFS 文件系统与 ZFS 池
ZFS 池可能由数据集(文件系统、快照等)或卷组成。 ZFS 卷就像 block 设备，但我不明白池和文件系统之间的区别。当我通过 zpool create pool1 sda sdb sdc 创建
docker - 以编程方式创建 Airflow 池
我在 docker 容器上运行了 airflow。我正在使用 airflow 2.0.2 版。我知道我实际上可以通过 UI 创建池。但我正在寻找一种通过 pools.json 文件在 docker
java - 连接未返回 tomcat 池
我在tomcat中有一个jdbc池，用于建立数据库连接。我在使用后没有显式关闭连接对象。我的“maxActive”参数设置为100。应用程序运行了一段时间，但随后失败进行数据库查询。它会等待无限时间来
java - PostgreSQL JDBC 池
阅读 PostgreSQL 文档 here我读了以下内容: As well, connections requested for users other than the default config
docker - 以编程方式创建 Airflow 池
我在 docker 容器上运行了 airflow。我正在使用 airflow 2.0.2 版。我知道我实际上可以通过 UI 创建池。但我正在寻找一种通过 pools.json 文件在 docker
java - 如何保持固定大小的 ListenableFuture 池？
我正在读取一个大的 URL 文件并向服务发出请求。该请求由返回 ListenableFuture 的客户端执行。现在我想保留一个 ListenableFuture 池，例如最多同时执行 N 个 Fut
python - 池、队列、悬挂
我想使用队列来保存结果，因为我希望消费者(串行而不是并行)在工作人员产生结果时处理工作人员的结果。现在，我想知道为什么以下程序挂起。 import multiprocessing as mp imp
javascript - JQuery Ajax 池
我正在开发一个单页应用程序，目前正在构建一个 JQuery、ajax 函数，以便我的所有调用都能通过。对于一个典型的页面，我可能有 3 个 ajax 调用。我的想法是，如果用户互联网出去将这些 aj
java - 用于不同类型子对象的 Libgdx 池
我有一个单位类及其一些子类(弓箭手、剑客等)。我怎样才能创建一个回收所有单元类型子类的池？最佳答案这是不可能的，因为池只能包含一种特定类型的对象。否则你可能会遇到这样的情况: Pool unitP

首页

博学

6Ren·AI

商城

Python 多处理池；等待迭代完成