gpt4 book ai didi

Python 多处理 imap chunksize

转载 作者:太空宇宙 更新时间:2023-11-03 16:32:57 24 4
gpt4 key购买 nike

我想比较两个具有相同路径结构和所有子文件夹中相同文件的文件夹。该文件夹相当大,大小约为80GB,文件数量为8000个。

我想确保两个顶级目录下的每个相应文件对具有相同的 md5 校验和值。我写了一个简单的树形DFS函数,搜索两个目录下的所有文件,根据文件大小排序,将它们存储在两个列表中。

当我迭代列表时,我发现完成所有比较非常耗时,而且 CPU 使用率也很低。

我认为多处理模块非常适合这种情况。这是我的多处理实现:

from multiprocessing import Pool, cpu_count
import hashlib

def calc_md5(item):
m = hashlib.md5()
with open(item, 'rb') as f:
for chunk in iter(lambda: f.read(4096), b""):
m.update(chunk)
return m.hexdigest()

def worker(args):
a, b = args
return calc_md5(a) == calc_md5(b)

def multi_compare(queue_a, queue_b, thread):
pool = Pool(processes = cpu_count() - 1)
# Task iterable
task = zip(queue_a, queue_b)
# Multiprocessing
for retval in pool.imap_unordered(worker, task, chunksize = 5):
if not retval:
print "Bad Detected"

这里queue_a和queue_b是要比较的文件的路径,按照文件大小排序。我期望这种多处理方法具有更高的 CPU 使用率和更好的性能,但事实似乎并非如此。简单的顺序迭代大约需要 3200 秒才能完成,而多处理方法大约需要 4600 秒。

我很好奇为什么会出现这种情况?这是使用多处理的好点吗?我的代码中这种糟糕性能的瓶颈是什么?有什么办法可以改善吗?

编辑:我根据我的直觉设置了 block 大小。我想我可以将其更改为按线程号划分的queue_a或queue_b的长度,并将任务队列排序为包含queue_a[0::thread]或queue_b[0::thread]元素的前1/4,反之亦然。这会将相似大小的任务提供给所有线程,并使所有线程始终保持忙碌状态。我不知道这是否是获得额外性能的好方法,我仍在对此进行测试。

编辑:上述编辑中的测试需要 4000 秒才能完成。比 chunksize = 5 稍好。但仍比串行方法差。所以我想问一下如何确定这个多处理程序的瓶颈。

谢谢!

最佳答案

限制性能的是IO。现在,MD5 算法对于 CPU 来说是一项太简单的任务了。以下代码计算 MD5 性能(以 GB/s 为单位)。

import time
import hashlib
from multiprocessing import Pool

def worker(x):
data = bytearray(xrange(256)) * 4 * 1024
md5 = hashlib.md5()
for x in xrange(1024):
md5.update(data)

if __name__ == '__main__':
num_workers = 4
pool = Pool(num_workers)
start = time.time()
pool.map(worker, xrange(num_workers))
print num_workers / (time.time() - start), 'Gb/s'

相对较弱的英特尔现代移动 i3 CPU(2 核,4 线程)能够以每秒 1 Gb 的速度进行哈希处理。将此与 SATA3 bandwidth即 600 Mb/s。因此,即使使用 SSD,磁盘接口(interface)也会限制哈希速度。
在硬盘上情况更糟。多个读取器将迫使磁盘移动其读取头,从而导致比仅使用一个读取器线程更多的延迟。这就像读取一个严重碎片化的文件。
当数据集不是那么大时,操作系统的文件缓存可以提供很大帮助。但这不是你的情况。

关于Python 多处理 imap chunksize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37445763/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com