Python multiprocessing——跟踪pool.map操作的过程-6ren

Python multiprocessing——跟踪pool.map操作的过程

转载作者：太空狗更新时间：2023-10-29 18:19:57

25

4

我有一个函数可以执行一些模拟和返回字符串格式的数组。

我想运行模拟(功能)不同的输入参数值，超过 10000 个可能的输入值，并将结果写入单个文件。

我正在使用多处理，特别是 pool.map 函数并行运行模拟。

全程模拟功能运行超过10000次需要很长时间，我很想跟踪整个操作过程。

我认为下面当前代码中的问题是，pool.map 运行函数 10000 次，在这些操作期间没有任何进程跟踪。一旦并行处理完成运行 10000 次模拟(可能是几小时到几天)，然后我会继续跟踪 10000 次模拟结果何时被保存到文件中。所以这并不是真正跟踪 pool.map 操作的处理。

我的代码是否有允许进程跟踪的简单修复？

def simFunction(input):
    # Does some simulation and outputs simResult
    return str(simResult)

# Parallel processing

inputs = np.arange(0,10000,1)

if __name__ == "__main__":
    numCores = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes = numCores)
    t = pool.map(simFunction, inputs) 
    with open('results.txt','w') as out:
        print("Starting to simulate " + str(len(inputs)) + " input values...")
        counter = 0
        for i in t:
            out.write(i + '\n')
            counter = counter + 1
            if counter%100==0:
                print(str(counter) + " of " + str(len(inputs)) + " input values simulated")
    print('Finished!!!!')

最佳答案

请注意，我使用的是 pathos.multiprocessing 而不是 multiprocessing。 它只是 multiprocessing 的一个分支使您能够使用多个输入执行 map 函数，具有更好的序列化，并允许您在任何地方执行 map 调用(不仅仅是在 __main__ ).您也可以使用 multiprocessing 来执行以下操作，但代码会略有不同。

如果您使用迭代的 map 函数，跟踪进度非常容易。

from pathos.multiprocessing import ProcessingPool as Pool
def simFunction(x,y):
  import time
  time.sleep(2)
  return x**2 + y
 
x,y = range(100),range(-100,100,2)
res = Pool().imap(simFunction, x,y)
with open('results.txt', 'w') as out:
  for i in x:
    out.write("%s\n" % res.next())
    if i%10 is 0:
      print "%s of %s simulated" % (i, len(x))

0 of 100 simulated
10 of 100 simulated
20 of 100 simulated
30 of 100 simulated
40 of 100 simulated
50 of 100 simulated
60 of 100 simulated
70 of 100 simulated
80 of 100 simulated
90 of 100 simulated

或者，您可以使用异步 map。在这里，我会做一些不同的事情，只是为了混合起来。

import time
res = Pool().amap(simFunction, x,y)
while not res.ready():
  print "waiting..."
  time.sleep(5)

waiting...
waiting...
waiting...
waiting...

res.get()
[-100, -97, -92, -85, -76, -65, -52, -37, -20, -1, 20, 43, 68, 95, 124, 155, 188, 223, 260, 299, 340, 383, 428, 475, 524, 575, 628, 683, 740, 799, 860, 923, 988, 1055, 1124, 1195, 1268, 1343, 1420, 1499, 1580, 1663, 1748, 1835, 1924, 2015, 2108, 2203, 2300, 2399, 2500, 2603, 2708, 2815, 2924, 3035, 3148, 3263, 3380, 3499, 3620, 3743, 3868, 3995, 4124, 4255, 4388, 4523, 4660, 4799, 4940, 5083, 5228, 5375, 5524, 5675, 5828, 5983, 6140, 6299, 6460, 6623, 6788, 6955, 7124, 7295, 7468, 7643, 7820, 7999, 8180, 8363, 8548, 8735, 8924, 9115, 9308, 9503, 9700, 9899]

无论是迭代还是异步 map 都可以让您编写任何您想要的代码来更好地进行流程跟踪。例如，将唯一的“id”传递给每个作业，然后观察哪个返回，或者让每个作业返回它的进程 id。有很多方法可以跟踪进度和流程……但以上内容应该可以让您入门。

你可以获得pathos here .

关于Python multiprocessing——跟踪pool.map操作的过程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28375508/

25

4

0

文章推荐： angular - 在 Angular 中导入 @ngrx/core @ngrx/store 时出现问题

文章推荐： python - 我可以更新亚马逊的旧版本 pip 和 setuptools 吗？

文章推荐： python - urllib HTTPS 请求 :

文章推荐： python - 在 Pandas DataFrame 中拆分列表

Python multiprocessing 和 multiprocessing.Queue
我正在尝试使用多处理和队列实现生产者-消费者场景；主进程是生产者，两个子进程使用队列中的数据。这在没有任何异常发生的情况下有效，但问题是我希望能够在工作人员死亡时重新启动他们(kill -9 wor
Python multiprocessing RemoteManager 下的一个 multiprocessing.Process
我试图在一个管理进程下启动一个数据队列服务器(这样它以后可以变成一个服务)，虽然数据队列服务器功能在主进程中工作正常，但它在一个进程中不起作用使用 multiprocessing.Process 创建
multiprocessing - Julia 等价于 Python multiprocessing.Pool.map
我的多处理需求非常简单:我从事机器学习工作，有时我需要评估多个数据集中的一个算法，或者一个数据集中的多个算法，等等。我只需要运行一个带有一些参数的函数并获取一个数字。我不需要 RPC、共享数据，什么
python - multiprocessing.Process() 或 multiprocessing.Pool() 会更均匀地分布在核心之间吗？
创建进程池或简单地遍历一个进程以创建更多进程之间有任何区别(以任何方式)吗？这有什么区别？: pool = multiprocessing.Pool(5) pool.apply_async(work
python - multiprocessing.Semaphore 和 multiprocessing.BoundedSemaphore 有什么区别？
multiprocessing.BoundedSemaphore(3) 与 multiprocessing.Sempahore(3) 有何不同？我希望 multiprocessing.Bounded
python - multiprocessing.Pipe 比 multiprocessing.Queue 还要慢？
我尝试通过 multiprocessing 包中的 Queue 对 Pipe 的速度进行基准测试。我认为 Pipe 会更快，因为 Queue 在内部使用 Pipe。奇怪的是，Pipe 在发送大型 n
Python multiprocessing.Queue 与 multiprocessing.manager().Queue()
我有这样一个简单的任务: def worker(queue): while True: try: _ = queue.get_nowait()
python - 为什么我可以将实例方法传递给 multiprocessing.Process，而不是 multiprocessing.Pool？
我正在尝试编写一个与 multiprocessing.Pool 同时应用函数的应用程序。我希望这个函数成为一个实例方法(所以我可以在不同的子类中以不同的方式定义它)。这似乎是不可能的；正如我在其他地方
Python2 : multiprocessing. dummy.Pool 与 multiprocessing.pool.ThreadPool
在 python 2 中，multiprocessing.dummy.Pool 和 multiprocessing.pool.ThreadPool 之间有什么区别吗？源代码似乎暗示它们是相同的。最佳
python - dask.multiprocessing 或 pandas + multiprocessing.pool : what's the difference?
我正在开发一个用于财务目的的模型。我将整个 S&P500 组件放在一个文件夹中，存储了尽可能多的 .hdf 文件。每个 .hdf 文件都有自己的多索引(年-周-分)。顺序代码示例(非并行化): im
python - 在 multiprocessing pool.map_async() 中处理 multiprocessing.TimeoutError
到目前为止，我是这样做的: rets=set(pool.map_async(my_callback, args.hosts).get(60*4)) 如果超时，我会得到一个异常: File "/usr
python - multiprocessing.Pool.apply 和 multiprocessing.Pool.apply_async 的目的
参见下面的示例和执行结果: #!/usr/bin/env python3.4 from multiprocessing import Pool import time import os def in
python - 创建使用 Multiprocessing 和 Multiprocessing.Queues 的 linux 守护进程
我的任务是监听 UDP 数据报，对其进行解码(数据报具有二进制信息)，将解码后的信息放入字典中，将字典转储为 json 字符串，然后将 json 字符串发送到远程服务器(ActiveMQ)。解码和发
multiprocessing - 为什么在 Python3.8+ "fork"中使用 "spawn"有效但使用 `multiprocessing` 失败？
我在 macOS 上工作，最近被 Python 3.8 多处理中“fork”到“spawn”的变化所困扰(参见 doc )。下面显示了一个简化的工作示例，其中使用“fork”成功但使用“spawn”失
python - 为什么 multiprocessing.Queue 有一个小的延迟，而(显然)multiprocessing.Pipe 却没有？
multiprocessing.Queue 的文档指出从项目入队到其腌制表示刷新到底层管道之间存在一点延迟。显然，您可以将一个项目直接放入管道中(它没有说明其他情况，并且暗示情况就是如此)。为什么管
python - 为什么 multiprocessing.Pool 和 multiprocessing.Process 在 Linux 中的表现如此不同
我运行了一些测试代码来检查在 Linux 中使用 Pool 和 Process 的性能。我正在使用 Python 2.7。 multiprocessing.Pool 的源代码似乎显示它正在使用 mul
具有 multiprocessing.Manager 的 Python multiprocessing.Process 对象在 Windows 任务管理器中创建多个多处理分支
我在 Windows Standard Embedded 7 上运行 python 3.4.3。我有一个继承 multiprocessing.Process 的类。在类的 run 方法中，我为进程对
python - 子类 multiprocessing.Process 但不调用 multiprocessing.Process 的 __init__ 方法
我知道multiprocessing.Process类似于 threading.Thread当我子类 multiprocessing.Process 时要创建一个进程，我发现我不必调用 __init_
multiprocessing - 在多处理器系统中禁用中断的过程是什么？
我有教科书声明说在多处理器系统中不建议禁用中断，并且会花费太多时间。但我不明白这一点，谁能告诉我多处理器系统禁用中断的过程？谢谢最佳答案在 x86(和其他架构，AFAIK)上，启用/禁用中断是基于
Python Multiprocessing - 进程数
我正在执行下面的代码并且它工作正常，但它不会产生不同的进程，而是有时所有都在同一个进程中运行，有时 2 个在一个进程中运行。我正在使用 4 cpu 机器。这段代码有什么问题？ def f(values

首页

博学

6Ren·AI

商城

Python multiprocessing——跟踪pool.map操作的过程