python - 如何使用 multiprocessing.Pool.apply_async 记录到单个文件-6ren

python - 如何使用 multiprocessing.Pool.apply_async 记录到单个文件

转载作者：行者123 更新时间：2023-12-01 02:20:04

26

4

我无法记录到使用 multprocess.Pool.apply_async 的单个文件。我正在努力适应this Logging Cookbook 中的示例，但它仅适用于 multiprocessing.Process。将日志队列传递到 apply_async 似乎没有效果。我想使用一个池，以便我可以轻松管理并发线程的数量。

下面的 multiprocessing.Process 改编示例对我来说效果很好，只是我没有从主进程获取日志消息，并且我认为当我有 100 个大型作业时它不会很好地工作。

import logging
import logging.handlers
import numpy as np
import time
import multiprocessing
import pandas as pd
log_file = 'PATH_TO_FILE/log_file.log'

def listener_configurer():
    root = logging.getLogger()
    h = logging.FileHandler(log_file)
    f = logging.Formatter('%(asctime)s %(processName)-10s %(name)s %(levelname)-8s %(message)s')
    h.setFormatter(f)
    root.addHandler(h)

# This is the listener process top-level loop: wait for logging events
# (LogRecords)on the queue and handle them, quit when you get a None for a
# LogRecord.
def listener_process(queue, configurer):
    configurer()
    while True:
        try:
            record = queue.get()
            if record is None:  # We send this as a sentinel to tell the listener to quit.
                break
            logger = logging.getLogger(record.name)
            logger.handle(record)  # No level or filter logic applied - just do it!
        except Exception:
            import sys, traceback
            print('Whoops! Problem:', file=sys.stderr)
            traceback.print_exc(file=sys.stderr)


def worker_configurer(queue):
    h = logging.handlers.QueueHandler(queue)  # Just the one handler needed
    root = logging.getLogger()
    root.addHandler(h)
    # send all messages, for demo; no other level or filter logic applied.
    root.setLevel(logging.DEBUG)


# This is the worker process top-level loop, which just logs ten events with
# random intervening delays before terminating.
# The print messages are just so you know it's doing something!
def worker_function(sleep_time, name, queue, configurer):
    configurer(queue)
    start_message = 'Worker {} started and will now sleep for {}s'.format(name, sleep_time)
    logging.info(start_message)
    time.sleep(sleep_time)
    success_message = 'Worker {} has finished sleeping for {}s'.format(name, sleep_time)
    logging.info(success_message)

def main_with_process():
    start_time = time.time()
    single_thread_time = 0.
    queue = multiprocessing.Queue(-1)
    listener = multiprocessing.Process(target=listener_process,
                                       args=(queue, listener_configurer))
    listener.start()
    workers = []
    for i in range(10):
        name = str(i)
        sleep_time = np.random.randint(10) / 2
        single_thread_time += sleep_time
        worker = multiprocessing.Process(target=worker_function,
                                         args=(sleep_time, name, queue, worker_configurer))
        workers.append(worker)
        worker.start()
    for w in workers:
        w.join()
    queue.put_nowait(None)
    listener.join()
    end_time = time.time()
    final_message = "Script execution time was {}s, but single-thread time was {}s".format(
        (end_time - start_time),
        single_thread_time
    )
    print(final_message)

if __name__ == "__main__":
    main_with_process()

但是我无法让以下适应工作:

def main_with_pool():
    start_time = time.time()
    queue = multiprocessing.Queue(-1)
    listener = multiprocessing.Process(target=listener_process,
                                       args=(queue, listener_configurer))
    listener.start()
    pool = multiprocessing.Pool(processes=3)
    job_list = [np.random.randint(10) / 2 for i in range(10)]
    single_thread_time = np.sum(job_list)
    for i, sleep_time in enumerate(job_list):
        name = str(i)
        pool.apply_async(worker_function,
                         args=(sleep_time, name, queue, worker_configurer))

    queue.put_nowait(None)
    listener.join()
    end_time = time.time()
    print("Script execution time was {}s, but single-thread time was {}s".format(
        (end_time - start_time),
        single_thread_time
    ))

if __name__ == "__main__":
    main_with_pool()

我使用 multiprocessing.Manager、multiprocessing.Queue、multiprocessing.get_logger、apply_async.get() 尝试了许多细微的变化，但没有任何效果。

我认为对此会有一个现成的解决方案。我应该尝试 celery 吗？

谢谢

最佳答案

这里实际上有两个独立的问题，它们相互交织:

您不能将 multiprocessing.Queue() 对象作为参数传递给基于池的函数(您可以将其传递给直接启动的工作线程，但不能传递给任何“进一步的”，因为它是)。
您必须等待所有异步工作线程完成，然后才能将 None 发送到监听器进程。

要修复第一个，请替换:

queue = multiprocessing.Queue(-1)

与:

queue = multiprocessing.Manager().Queue(-1)

作为管理器管理的Queue()实例可以被传递。

要解决第二个问题，可以收集每个异步调用的每个结果，或者关闭池并等待它，例如:

pool.close()
pool.join()
queue.put_nowait(None)

或更复杂的:

getters = []
for i, sleep_time in enumerate(job_list):
    name = str(i)
    getters.append(
        pool.apply_async(worker_function,
                     args=(sleep_time, name, queue, worker_configurer))
    )
while len(getters):
    getters.pop().get()
# optionally, close and join pool here (generally a good idea anyway)
queue.put_nowait(None)

(您还应该考虑将 put_nowait 替换为 put 的等待版本，而不是使用无限长度的队列。)

关于python - 如何使用 multiprocessing.Pool.apply_async 记录到单个文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48045978/

26

4

0

文章推荐： python - 模块已安装但无法导入

文章推荐： javascript - 无法从 Openweathermap API 获取温度

python - apply_async 回调函数未被调用
我是 python 的新手，我有一个函数可以为我的数据计算特征，然后返回一个应该处理并写入文件的列表。，..我正在使用 Pool 进行计算，然后使用写入文件的回调函数，但是回调函数没有被调用，我已经在
python - 对进程池使用带有回调函数的 apply_async
我试图了解多进程池是如何工作的。在下面的编程中，我创建了一个包含 4 个进程的池。我使用回调函数调用 apply_async ，该函数应该更新名为 result_list 的列表 import Qu
python - 在多处理 apply_async 中维护实例状态
我希望如果我调用 apply_async在实例方法中并获得其结果，所做的任何更改都将保留为 fork 进程的一部分。但是，似乎每次对 apply_async 的新调用都会创建所述实例的新副本。采取以
python - 无法使用 pool.apply_async()
我只是在使用 Python 的多处理模块，但是以下代码正在连续运行，但没有给出任何输出。我究竟做错了什么？我也尝试过 pool.close() 和 pool.join() 但没有效果。这是我迄今为止
Python 多处理 apply_async + Value
我尝试通过 apply_async 将共享计数器传递给多处理中的任务，但它失败并出现以下错误“RuntimeError:同步对象只能通过继承在进程之间共享”。这是怎么回事 def processLin
python - 如何使用 apply_async 创建无限循环？
我有一个带有 apply_async 的进程池，其中不同的进程需要不同的时间来提供输出。一旦一个进程完成，我就会对其输出进行一些计算。在我想启动另一个进程之后。通过这种方式，我想创建一个无限循环，它启
Python 多处理 apply_async 仅使用一个进程
这是我的代码: import multiprocessing import time import os def worker(): print str(os.getpid()) + " is
Python 单元测试 task.apply_async()
使用覆盖率来查看必须测试的内容，并且覆盖率显示旁边必须要测试的内容:send_alert.apply_async() 我知道是celery任务，但是有什么办法可以测试这行代码吗？理解测试逻辑的其余代
Python多处理: print() inside apply_async()
传递给多处理的 apply_async() 的函数内的 print() 不会打印任何内容。我想最终使用 apply_async 来处理大块的文本文件。因此，我希望脚本在屏幕上打印出已经处理了多少行。
Python 多处理 apply_async 不可pickle？
我正在计算大量函数(大约1000000)，并且由于它非常耗时，所以我使用multiprocessing.Pool.apply_async函数。但是，当我尝试使用 AsyncResult 类的 .get
python - 多处理 apply_async 与多处理队列的奇怪行为
import time import multiprocessing def multi_thread(files): q = multiprocessing.Queue() for
python - 多处理池 'apply_async' 似乎只调用一次函数
我一直在关注文档以尝试了解多处理池。我想到了这个: import time from multiprocessing import Pool def f(a): print 'f(' + st
python - 回调 celery apply_async
我在我的应用程序中使用 celery 来运行周期性任务。让我们看下面的简单示例 from myqueue import Queue @perodic_task(run_every=timedelta(
python - 使用多处理池的 apply_async 方法时谁运行回调？
我正在尝试了解使用多处理池的 apply_sync 方法时幕后发生的事情。谁运行回调方法？是调用apply_async的主进程吗？假设我发送了一大堆带有回调的 apply_async 命令，然后继
python multiprocessing apply_async 只使用一个进程
我有一个脚本，其中包括从列表中打开一个文件，然后对该文件中的文本执行某些操作。我正在使用 python 多处理和 Pool 来尝试并行化此操作。脚本的抽象如下: import os from mult
python-3.x - apply_async 结果顺序
如果我理解正确，apply_async 会立即返回一个 AsyncResult 对象。如果我按以下方式收集这些对象，并仅在所有工作人员完成后才使用 get()，假设值将按照调用函数的顺序是否安全？ o
python - 如果从函数内部执行，带有 "apply_async"的多处理池不会执行任何操作
我正在尝试使用 multiprocessing模块，更具体地说是 Pool.apply_async()功能。这段代码运行良好: import multiprocessing def do():
python - Django Celery apply_async 不起作用
我们使用的是 django 1.10、Celery 4.1.0 我正在尝试使用 apply_async。这是任务: from celery import Celery app = Celery('my
python - 使用 Pool().apply_async 进行大型计算期间的多处理死锁
我在 Python 3.7.3 中遇到一个问题，在处理大型计算任务时，我的多处理操作(使用队列、池和 apply_async)会死锁。对于小型计算，这个多处理任务工作得很好。然而，当处理较大的进程时
python - 如何累积 pool.apply_async 调用的结果？
我想调用 pool.apply_async(func) 并在结果可用时立即累积结果，而无需相互等待。 import multiprocessing import numpy as np chrName

首页

博学

6Ren·AI

商城

python - 如何使用 multiprocessing.Pool.apply_async 记录到单个文件