gpt4 book ai didi

Python3 通过多处理并行化作业

转载 作者:行者123 更新时间:2023-11-30 23:49:53 26 4
gpt4 key购买 nike

我有一个脚本,可以将包含目录的文件解析为其他文件,必须打开并读取这些文件来搜索关键字。由于文件数量不断增长,我希望启用多重处理以减少完成作业所需的时间。

我正在考虑让父进程解析包含目录的文件并使用子进程来获取其他文件。由于父级需要在创建子级之前获取数据,因此这将是一种阻塞架构(父级必须在调用子级之前读取所有文件),而我想将包含目录的列表发送给其中一个子级每 100 个结果。

因此,父级继续解析文件,而子级同时查找关键字。

我怎么能做这样的事情呢?如果您需要更多解释,请询问我,我会告诉您更多信息。

谢谢。

最佳答案

I was thinking to leave the parent process parsing the file containing directories and use child processes to fetch the other files.

目录是一个名称。父级解析列表并向每个子级提供目录名称。正确的?然后 child 读取目录中的文件。

Since the parent would need to obtain the data before to create childs it would be a blocking architecture (the parent has to read all the file before to call childs),

嗯。 child 不读取目录内的文件?上面,它说 child 确实读取了文件。对于 parent 来说,读取大量数据并将其推送给 child 是愚蠢的。

while I'd like to send to one of the childs the list containing directories each 100 results.

嗯。这是不同的。现在您想让父级读取一个目录名,读取一批 100 个文件名并将文件名发送给子级。好的。这比读取所有数据要简单得多。现在只剩下 100 个名字了。

So, the parent continues parsing the file while childs work at the same time to find the keyword.

好的。但您完全错过了并行处理的机会。

仔细阅读multiprocessing模块。

你想要的是两个队列和两种工作人员。

您的应用程序将构建两个队列。它将构建一个源进程、一个“获取批处理”工作进程池和一个“获取文件”工作进程池。

  • 来源。这个过程(基本上)是一个读取原始“包含目录的文件”的函数。并将每个目录名放入“获取批处理”队列中。

  • 获取批处理。这是一个进程池。每个进程都是一个从“获取批处理”队列中获取条目的函数。这是一个目录名称。然后,它读取该目录并将包含 100 个文件名的元组排入“获取文件”队列。

  • 获取文件。这是一个进程池。每个进程都是一个从“获取文件”队列中获取条目的函数。这是一个包含 100 个文件的元组。然后它打开并读取这 100 个文件,对它们进行天知道会做什么。

多处理模块的想法是使用工作池,所有工作池都从队列中获取任务并将结果放入另一个队列中。这些工作人员全部同时运行。

关于Python3 通过多处理并行化作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7442826/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com