python - multiprocessing中map与Pool结合使用时如何划分数据？-6ren

python - multiprocessing中map与Pool结合使用时如何划分数据？

转载作者：行者123 更新时间：2023-11-28 20:35:05

25

4

我有一个函数 f，我想在某个大数据上并行计算。数据可以以多种方式划分，我正在尝试就如何划分它做出决定。我试图了解 multiprocessing.Pool 中的“映射”如何准确地分发/划分数据，以便我做出正确的数据拆分决定以及选择处理器数量。我的输入数据不仅仅是一个列表，如下例所示，而是字典列表和列表列表，因此了解 Pool.map 如何划分数据似乎很重要。

话虽这么说，但我认为理解简单的例子会说明更复杂的例子。

以下 scipt 显示我们正在选择一个包含 5 个进程的池和 [1,2,3] 中的数据。这里为划分数据所做的隐式选择是什么？

from multiprocessing import Pool

def f(x):
    return x*x

if __name__ == '__main__':
    p = Pool(5)
    print(p.map(f, [1, 2, 3]))

最佳答案

它没有记录，所以你不应该依赖任何特定的行为。您可以通过传递可选的 chunksize= 来强制执行它争论。如果您不这样做，则会使用启发式方法为您构成 chunksize 的值。这可以在私有(private)函数中找到 _map_async() ，在您的源代码树的 Lib/multiprocessing/Pool.py 中:

def _map_async(self, func, iterable, mapper, chunksize=None, ...
    '''
    Helper function to implement map, starmap and their async counterparts.
    '''
    ...
    if chunksize is None:
        chunksize, extra = divmod(len(iterable), len(self._pool) * 4)
        if extra:
            chunksize += 1
    if len(iterable) == 0:
        chunksize = 0
    ...

len(self._pool)是工作进程的数量。因此，默认情况下，如果工作项少于进程数的 4 倍，则一次传递一个。您的具体示例 ( 3 <= 4*5 ) 就是这种情况。如果工作项比进程多得多，则选择 block 大小，以便每个进程在 map() 的生命周期内将工作 block 交给大约 4 次。 .例如，如果您的列表中有 500 个项目，500 / (5*4) == 25 ，因此一次将 25 个项目传递给工作进程。

为什么不是一次 100 个，这样 5 个工作人员中的每一个都只被调用一次？因为它是一种启发式 ;-) 传递少于该值是一种权衡，平衡需要完成进程间通信的次数与负载平衡(不同的工作项可能需要不同的时间才能完成)。但是关于负载平衡的任何事情都无法提前知道，因此启发式方法给予更多(但不是绝对!)权重以保持进程间调用的数量较低。

这就是它没有被记录的原因。很可能有一天会使用更智能的启发式方法。

关于python - multiprocessing中map与Pool结合使用时如何划分数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47501372/

25

4

0

文章推荐： python - 在 python 中，如何获取 "."的完整路径名？

文章推荐： python - 从数据框的开头向 Pandas 数据框的结尾添加值

文章推荐： python - 如何将元素列表分组成对？

文章推荐： javascript - jQuery :not() Selector iOS5 compatible?

boost - boost::pool<>::malloc 和 boost::pool<>::ordered_malloc 有什么区别，什么时候应该使用 boost::pool<>::ordered_malloc？
我正在使用 boost.pool，但我不知道何时使用 boost::pool<>::malloc和 boost::pool<>::ordered_malloc ? 所以， boost::pool<>:
python - 使用 multiprocessing.pool.Pool 初始化并行处理无限期卡住
我目前正在尝试从 anaconda 中的 spy 控制台运行并行代码。我相信问题可能出在我的计算机不允许 anaconda 控制 CPU 核心上，但我不知道如何解决这个问题。另一个有趣的点是，当我运
python - Python的multiprocessing包中，为什么会有multiprocessing.Pool和multiprocessing.pool.Pool？
在了解 Python 的 multiprocessing 包(对于 Python 3.4 )时，我注意到 multiprocessing.Pool 是在类 BaseContext 中定义的上下文.p
python - Pool.map 与 Pool.map_async
我有这样的程序: from multiprocessing import Pool import time def f(x): # I make a heavy code here to take t
Python 多处理 : is it possible to have a pool inside of a pool?
我有一个模块 A，它通过获取数据并将其发送到模块 B、C、D 等进行分析，然后将它们的结果结合在一起来执行基本的 map/reduce。但是模块 B、C、D 等似乎不能自己创建多处理池，否则我得到
Python Multiprocessing.Pool 工作人员在使用 pool.map 时挂起
所以我有一个脚本可以连接到大约 700 个设备并执行一系列命令，然后退出。我开始使用 Multiprocessing.Pool 和 Pool.map 来减少脚本的运行时间，并允许我同时登录多个设备。
python - 多处理中 pool.join、pool.close 的目的？
在下面的链接中有对 Pool 类的 map 方法的解释。它似乎阻塞直到结果准备好。这意味着不需要执行 pool.close(); pool.join() 在运行 pool.map 之后，但是它在 t
python - `context` 中的 `multiprocessing.pool.Pool` 参数是什么意思？
context 是 class multiprocessing.pool.Pool 构造函数中的可选参数。 Documentation只说: context can be used to specif
objective-c - [pool release] 和 [pool drain] 有什么区别？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: What's the difference between sending -release or -dra
libvirt - virsh - pool-define-as 和 pool-create-as 之间的区别
不确定这是否是正确的论坛。 libvirt 页面链接在这里。如果这需要张贴在不同的地方请告诉我。 virsh pool-define-as 和 create-as 有什么区别？阅读 virsh 的手册
connection-pooling - Spring Cloud : Feign and Http Connection Pooling
谁能告诉我Spring Cloud Feign Client是否提供或支持Http连接池，如果可以，那么如何配置诸如池大小的设置？我似乎在官方文档中找不到此内容。谢谢你。最佳答案通过调查，我将尝试
Python mysql.connector.pooling 导入错误 : No module named pooling
我在尝试运行 Flask 应用程序时遇到了一些困难。我收到以下导入错误: File "/db/mysql_utils.py", line 2, in import mysql.conne
node.js - pg-pool with typescript，无法创建 Pool 对象
我有一个 Node 项目，在其中使用 pg-pool 库。我已在我的依赖项中包含以下内容: "@types/pg-pool": "0.0.3", "pg": "^7.3.0", "pg-format"
Python2 : multiprocessing. dummy.Pool 与 multiprocessing.pool.ThreadPool
在 python 2 中，multiprocessing.dummy.Pool 和 multiprocessing.pool.ThreadPool 之间有什么区别吗？源代码似乎暗示它们是相同的。最佳
python - concurrent.futures.ProcessPoolExecutor 与 multiprocessing.pool.Pool
这个问题在这里已经有了答案: Concurrent.futures vs Multiprocessing in Python 3 (6 个答案) 关闭 5 年前。请给我解释一下这两个类有什么区别？
python - 如果我想给我的进程池更多的工作，我可以在 Pool.close() 之前调用 Pool.join() 吗？
multiprocessing 的文档states以下关于Pool.join() : Wait for the worker processes to exit. One must call clos
abap - 什么是 : TYPE, TYPES、TYPE-POOL、TYPE-POOLS 和类型组？
我找到了一些资源，但我不确定我是否理解。我找到的一些资源是: http://help.sap.com/saphelp_nw70/helpdata/en/fc/eb2ff3358411d1829f00
JAVA-IllegalStateException : unmanaged resource freed from pool D3D Vram Pool
我的 Javafx 应用程序抛出许多非法状态异常，我尚未能够在源中跟踪触发器。任何人都可以指导我导致此问题的原因以及我应该在哪里查找原因。我很难在这里展示一些代码，因为我不知道是什么原因造成的。任
python - multiprocessing.Pool.apply 和 multiprocessing.Pool.apply_async 的目的
参见下面的示例和执行结果: #!/usr/bin/env python3.4 from multiprocessing import Pool import time import os def in
java - com.zaxxer.hikari.pool.PoolInitializationException : Exception during pool initialization
我目前有一个连接到我的主数据库的开放池，它运行良好。但是现在，我想为另一个数据库打开一个新池。我完全按照设置第一个池的方式设置了新池，显然我编辑了数据库名称等。加载 setupHikari() 方法时

首页

博学

6Ren·AI

商城

python - multiprocessing中map与Pool结合使用时如何划分数据？