- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们正在使用 multiprocessing
库 (python 3.6
) 运行一个脚本,其中一个大的 pd.DataFrame
作为参数传递给一个函数:
from multiprocessing import Pool
import time
def my_function(big_df):
# do something time consuming
time.sleep(50)
if __name__ == '__main__':
with Pool(10) as p:
res = {}
output = {}
for id, big_df in some_dict_of_big_dfs:
res[id] = p.apply_async(my_function,(big_df ,))
output = {id : res[id].get() for id in id_list}
问题是我们从 pickle
库中得到一个错误。
Reason: 'OverflowError('cannot serialize a bytes objects larger than4GiB',)'
我们知道 pickle v4
可以序列化更大的对象 question related , link , 但我们不知道如何修改 multiprocessing
使用的协议(protocol)。
有人知道怎么办吗?谢谢!!
最佳答案
显然有一个开放的issue关于这个话题,并且有一些关于这个特定的相关倡议的描述answer .我找到了一种方法来更改基于此 answer 的 multiprocessing
库中使用的默认 pickle
协议(protocol).正如评论中指出的那样,此解决方案仅适用于 Linux 和操作系统多处理库
解决方法:
你首先创建一个新的分离模块
pickle4reducer.py
from multiprocessing.reduction import ForkingPickler, AbstractReducer
class ForkingPickler4(ForkingPickler):
def __init__(self, *args):
if len(args) > 1:
args[1] = 2
else:
args.append(2)
super().__init__(*args)
@classmethod
def dumps(cls, obj, protocol=4):
return ForkingPickler.dumps(obj, protocol)
def dump(obj, file, protocol=4):
ForkingPickler4(file, protocol).dump(obj)
class Pickle4Reducer(AbstractReducer):
ForkingPickler = ForkingPickler4
register = ForkingPickler4.register
dump = dump
然后,在您的主脚本中,您需要添加以下内容:
import pickle4reducer
import multiprocessing as mp
ctx = mp.get_context()
ctx.reducer = pickle4reducer.Pickle4Reducer()
with mp.Pool(4) as p:
# do something
这可能会解决溢出的问题。
但是,警告,您可能会考虑阅读 this在做任何事情之前 否则你可能会遇到和我一样的错误:
'i' format requires -2147483648 <= number <= 2147483647
(此错误的原因在上面的 link 中有很好的解释)。长话短说,multiprocessing
使用 pickle
协议(protocol)通过其所有进程发送数据,如果您已经达到 4gb
限制,那可能意味着您可能会考虑将函数重新定义为“无效”方法,而不是输入/输出方法。所有这些入站/出站数据都会增加 RAM 的使用,可能由于构造(我的情况)而效率低下,最好将所有进程指向同一个对象,而不是为每次调用创建一个新副本。
希望对您有所帮助。
关于python 多处理 - OverflowError ('cannot serialize a bytes object larger than 4GiB' ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51562221/
我刚开始学习用 Python 编写代码。我正在尝试编写一些代码来回答这个欧拉项目问题: 13195 的质因数是 5、7、13 和 29。 数 600851475143 的最大质因数是多少? 我的程序适
根据python文档 exception OverflowError Raised when the result of an arithmetic operation is too larg
当我尝试这个计算时,我得到一个溢出错误,但我不知道为什么。 1-math.exp(-4*1000000*-0.0641515994108) 最佳答案 您要求 math.exp 计算的数字(十进制)超过
最后一天,解决另一个Project Euler我在管理 big for i in range(n) 循环时遇到了麻烦。 我观察到 python 会抛出不同的错误,取决于 x 变量有多大。 这是一个mc
我有一个返回 log10 值的函数。在将它们转换为正常数字时,出现溢出错误。 OverflowError: (34, 'Numerical result out of range') 我检查了日志值,
我正在使用 cartopy 绘制一些 map 。在某些情况下,在我的轴上调用 .set_extent() 时,出现此错误: Traceback (most recent call last): F
我正在尝试使用 pygame 在 Python 中创建一个简单的多人游戏和 socket模块。它只是由两个圆圈组成,由两台不同计算机的 W、A、S、D 键控制。 起初我用 recv() 创建了一个客户
我想模拟一个 OverflowError 因为我想在引发异常之后测试变量的值。但是,我不知道如何使用我正在使用的库复制 OverflowError。我在此特定测试中使用的库是 pysolar.sola
尝试在您的 Python 3.3.2 IDLE 中输入这个,希望我不是唯一想知道并且愿意理解为什么会发生这种情况的人。 >>> n = 331 >>> d = 165.0 # float number
我是 Python 的新手,我遇到了这个问题: 追溯(最近的调用最后): b = 1-exp(n)*erfc(n**0.5) OverflowError:数学范围错误 我需要为不断增加的“n”值计算“
我为一个板设置了一个简单的 MDP,它有 4 种可能的状态和 4 种可能的操作。棋盘和奖励设置如下: 这里,S4 是目标状态,S2 是吸收状态。我在编写的代码中定义了转移概率矩阵和奖励矩阵,以获得该
我正在尝试将大小为 n 位的 int 转换为字节。这将返回溢出错误 尝试将 int 转换为字节以便稍后通过 TCP 使用 def diffie_hellman(): global a,g,n
x=float(raw_input('Enter a number to show its square root')) precise = 0.01 g=x/2.0 while abs(g**2-x
我想找出这里的模式: >>> 1e300 ** 2 OverflowError: (34, 'Result too large') >>> 1e300j ** 2 OverflowError: com
对于一项作业,我们被要求创建一个返回反函数的函数。基本问题是从平方函数创建平方根函数。我想出了一个使用二进制搜索的解决方案和另一个使用牛顿法的解决方案。我的解决方案似乎适用于立方根和平方根,但不适用于
在发这个问题之前,我检查了所有可能重复的问题,尝试了所有的方法仍然无法解决问题。 我在 matplotlib 中有一个简单的绘图。当我注释掉调用 plt.fill_between() 的行时,代码可以
我想写一个函数来计算 (1/n!) * (1! + 2! + 3! + ... + n!) ,其中 n 作为函数的参数,结果也被截断为6 位小数(不四舍五入)。下面是我的代码: def going(n
我正在尝试通过以下代码行在 64 位 Windows 系统上的 Python 2.7 中生成随机数: random_state=numpy_rng.random_integers(1e10) 但我收到
我正在尝试序列化一个大型 python 对象,该对象由使用 pickle/cPickle 和 gzip 的 numpy 数组元组组成。该过程适用于特定大小的数据,之后我收到以下错误: --> 121
我想做什么 我正在使用 PyArrow读取一些 CSV 并将它们转换为 Parquet。我阅读的一些文件有很多列并且占用大量内存(足以使运行该作业的机器崩溃),因此我正在分块读取文件。 这就是我用来生
我是一名优秀的程序员,十分优秀!