gpt4 book ai didi

Python 多处理 : Errors from different codes

转载 作者:行者123 更新时间:2023-12-01 06:56:24 25 4
gpt4 key购买 nike

我有一个包含 1000 万行的数据框。每行的迭代和计算需要花费太多时间。我想在更短的时间内得到结果。我尝试了不同的多处理代码,但每次都遇到不同的错误。有人可以帮我解决这个问题吗?谢谢您提前。

d3 是超过 1000 万行和 29 列的数据帧。最后一列的名称是“计算”,该列中的所有值均为零。通过使用其他列的值,我计算了新值,并将新值设置到“计算”列的每行。

第一个代码

def fun():
for i in d3.index:
if (d3.iloc[i, 3:4])[0] == (d3.iloc[i + 1, 3:4])[0]:
d3.loc[d3.index[i], 'Calculation']==(d3.iloc[i, 22:23] - d3.iloc[i + 1, 22:23])
else:
d3.loc[d3.index[i],'Calculation']=d3.iloc[i, 13:14][0]

if __name__=="__main__":
p1 = mp.Process(target=fun, args=())
p2 = mp.Process(target=fun, args=())
p3 = mp.Process(target=fun, args=())
p4 = mp.Process(target=fun, args=())
p1.start()
p2.start()
p3.start()
p4.start()

第二个代码

def fun(i):
if (d3.iloc[i, 3:4])[0] == (d3.iloc[i + 1, 3:4])[0]:
d3.set_value(i, "Calculation", (d3.iloc[i, 22:23] - d3.iloc[i + 1, 22:23]))
else:
d3.set_value(i, "Calculation", d3.iloc[i, 13:14])

if __name__=="__main__":
p1 = mp.Process(target=fun, args=(d3.index, ))
p2 = mp.Process(target=fun, args=(d3.index, ))
p3 = mp.Process(target=fun, args=(d3.index, ))
p4 = mp.Process(target=fun, args=(d3.index, ))
p1.start()
p2.start()
p3.start()
p4.start()
p1.join()
p2.join()
p3.join()
p4.join()

第三个代码

def fun(q):

for i in d3.index:
if (d3.iloc[i, 3:4])[0] == (d3.iloc[i + 1, 3:4])[0]:
d3.loc[d3.index[i], 'Calculation']==(d3.iloc[i, 22:23] - d3.iloc[i + 1, 22:23])
else:
d3.loc[d3.index[i], 'Calculation']==(d3.iloc[i, 22:23] - d3.iloc[i + 1, 22:23])
q.put(d3)``

if __name__ == "__main__":
q = mp.Queue()
processes = [mp.Process(target=fun, args=(q,)) for x in range(4)]
for p in processes:
p.start()
for p in processes:
p.join()
results = [q.get() for p in processes]

错误1:

File "pandas\_libs\ops.pyx", line 103, in pandas._libs.ops.vec_compare
ValueError: Buffer has wrong number of dimensions (expected 1, got 0)

错误2:

File "pandas\_libs\hashtable_class_helper.pxi", line 1614, in     pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 0

错误3:

File "pandas\_libs\ops.pyx", line 103, in pandas._libs.ops.vec_compare
ValueError: Buffer has wrong number of dimensions (expected 1, got 0)

最佳答案

在第三个示例中,您需要将 q 和 d3 传递给子流程。场景中发生的情况是,如果 fun(q, d3) 修改 d3,则 d3 会被复制到专用于正在运行的子进程的内存空间 fun(q, d3) 修改之前。如果子进程中没有修改d3,则子进程只保留父进程对d3的引用(这是高效的)。

现在,如果 d3 非常大,并且您想减少运行时间和内存需求,我只会将对 d3 的引用传递给您的 4 个子进程(即,不要在子进程中修改 d3 以避免副本),以及开始和停止行索引。然后 fun(d3, q, start_idx, stop_idx) 只会返回一个长度为 stop_idx - start_idx 的列表,您的父进程稍后会将其放回到名为 < 的原始 d3 列中强>计算。

关于Python 多处理 : Errors from different codes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58790114/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com