gpt4 book ai didi

python - 什么是守护进程?为什么创建?

转载 作者:行者123 更新时间:2023-11-28 17:08:18 24 4
gpt4 key购买 nike

我正在尝试将字符串转换为日期时间对象。这些字符串存储在 csv 列中。文件很大,我想对其进行多处理。

我的代码是这样的:

def conv_datetime(file):
return ([pd.to_datetime(j[3]) for j in file])

if __name__ == "__main__":
n = 0
file = pd.read_csv("csv_file",header=None,chunksize=200,skiprows=n)
n += 200
pro = mp.Process(target=conv_datetime,args=(file,))
pro.deamon = False
pro.start()
pro.join()

我得到:

AttributeError     
Traceback (most recent call last)
<ipython-input-1-5d16d82af0d2> in <module>()
15 pro = mp.Process(target=conv_datetime,args=(file,))
16 pro.deamon = False
---> 17 pro.start()
18 pro.join()
19

C:\ProgramData\Anaconda33\lib\multiprocessing\process.py in start(self)
103 'daemonic processes are not allowed to have children'
104 _cleanup()
--> 105 self._popen = self._Popen(self)
106 self._sentinel = self._popen.sentinel
107 # Avoid a refcycle if the target function holds an indirect

C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _ Popen(process_obj)
221 @staticmethod
222 def _Popen(process_obj):
--> 223 return _default_context.get_context().Process._Popen(process_obj)
224
225 class DefaultContext(BaseContext):

C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _Popen(process_obj)
320 def _Popen(process_obj):
321 from .popen_spawn_win32 import Popen
--> 322 return Popen(process_obj)
323
324 class SpawnContext(BaseContext):

C:\ProgramData\Anaconda33\lib\multiprocessing\popen_spawn_win32.py in __init__(self, process_obj)
63 try:
64 reduction.dump(prep_data, to_child)
---> 65 reduction.dump(process_obj, to_child)
66 finally:
67 set_spawning_popen(None)

C:\ProgramData\Anaconda33\lib\multiprocessing\reduction.py in dump(obj, file, protocol)
58 def dump(obj, file, protocol=None):
59 '''Replacement for pickle.dump() using ForkingPickler.'''
---> 60 ForkingPickler(file, protocol).dump(obj)
61
62 #

AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'

在有人给我代码的解决方案之前,如果能深入了解守护进程的工作原理,那将非常有帮助。

最佳答案

如果您查看 multiprocessing/process.py代码(你似乎没有使用 Python 3.6,所以行号有点不同,但这部分代码没有改变),你可以很清楚地看到关于守护进程的字符串是不相关的;它只是 assert 的一部分,表明您的代码在几行之后由于完全不相关的原因而失败之前没有出现任何问题。


实际问题出在第 105 行,错误信息中对此进行了解释:

AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'

您正试图将一个对象传递给一个不能被 pickle 的子进程。这在 multiprocessing 文档中有一些解释,例如,在 Programming Guidelines 下,尽管这些文档假设您了解“pickle”的含义,并且您已经阅读了文档前面部分的大量内容。你真的应该阅读那些前面的部分,并在文档中查找 pickle,但基本思想是这样的:

multiprocessing 模块使用pickle 模块将参数传递给函数、从函数返回值、将值放入队列等。pickle 模块只能处理设计为 pickle 的数据类型。因此,某些类型不能通过 multiprocessing 传递。

在这种情况下,应该有一个非常简单的解决方法:只需传递文件名,让子进程读取它。当然,这不适用于更复杂的情况,但如果它适用于您的情况,请保持简单。

对于更复杂的情况,Pandas 通常的解决方案是用第三方库替换标准 pickler,例如 dillcloudpickle,它们更了解 Pandas 并且可以强制它成形以通过网络传递。 (或者,有时,用 dask 等第三方库替换 multiprocess 本身。)这并不难学,但您确实需要查看选项,选择一个,然后阅读有关如何将其 Hook 的信息,如果不需要,您可能不想这样做。


如果您仍然对什么是守护进程感兴趣,请参阅 Processes在引用文档中。但简短的版本是守护进程,在这种情况下,是一个没有得到 joined 的进程——换句话说,当主进程完成时,你不必等待它完成,就像处理正常流程一样。

关于python - 什么是守护进程?为什么创建?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49621847/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com