gpt4 book ai didi

python - 如何为大型数据集的 python 多处理选择 block 大小

转载 作者:太空狗 更新时间:2023-10-30 01:24:21 25 4
gpt4 key购买 nike

我正在尝试使用 python 来获得一些可以使用 http://docs.python.org/library/multiprocessing 高度并行化的任务的性能.

在查看他们的库时,他们说要对非常长的可迭代对象使用 block 大小。现在,我的 iterable 不长,它包含的一个字典很大:~100000 个条目,元组作为键,numpy 数组作为值。

我如何设置 block 大小来处理这个问题以及如何快速传输这些数据?

谢谢。

最佳答案

让多个工作人员同时处理这个大项目的唯一方法是将其拆分。 multiprocessing 以单元为单位划分工作,但您可以提供给它的最小单元是一个对象——它不知道如何以一种合理的方式拆分单个对象。相反,你必须自己做。与其发送要处理的指令,不如将指令拆分到更小的工作单元,然后将它们发送过来。如果因为所有数据都是相互依赖的而无法拆分 dict,那么您也无法真正拆分工作。

关于python - 如何为大型数据集的 python 多处理选择 block 大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2705953/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com