gpt4 book ai didi

python - 泳池工作人员未完成所有任务

转载 作者:行者123 更新时间:2023-11-28 16:47:49 27 4
gpt4 key购买 nike

我有一个相对简单的 python 多处理脚本,它设置了一个工作池,通过自定义管理器将输出附加到 pandas dataframe。我发现当我在池中调用 close()/join() 时,并非所有由 apply_async 提交的任务都已完成。

这是一个简化的示例,它提交了 1000 个作业,但只完成了一半,导致断言错误。我是否忽略了一些非常简单的事情,或者这可能是一个错误?

from pandas import DataFrame
from multiprocessing.managers import BaseManager, Pool

class DataFrameResults:
def __init__(self):
self.results = DataFrame(columns=("A", "B"))

def get_count(self):
return self.results["A"].count()

def register_result(self, a, b):
self.results = self.results.append([{"A": a, "B": b}], ignore_index=True)

class MyManager(BaseManager): pass

MyManager.register('DataFrameResults', DataFrameResults)

def f1(results, a, b):
results.register_result(a, b)

def main():
manager = MyManager()
manager.start()
results = manager.DataFrameResults()

pool = Pool(processes=4)

for (i) in range(0, 1000):
pool.apply_async(f1, [results, i, i*i])
pool.close()
pool.join()

print results.get_count()
assert results.get_count() == 1000

if __name__ == "__main__":
main()

最佳答案

[编辑]您看到的问题是因为这段代码:

self.results = self.results.append(...)

这不是原子的。所以在某些情况下,线程将在读取 self.results 之后(或在附加时)但在它可以将新帧分配给 self.results 之前被中断 ->这个实例会丢失。

正确的解决方案是等待使用结果对象获取结果,然后将它们全部追加到主线程中。

关于python - 泳池工作人员未完成所有任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11970820/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com