gpt4 book ai didi

python - 序列化具有依赖项的 python 函数

转载 作者:太空狗 更新时间:2023-10-29 20:47:31 25 4
gpt4 key购买 nike

根据 StackOverflow 上的许多建议(例如 dill、cloudpickle 等),我尝试了多种方法来 pickle 带有依赖项的 python 函数,但所有方法似乎都遇到了一个我无法弄清楚的基本问题。

我有一个主模块试图从一个导入的模块中 pickle 一个函数,通过 ssh 发送它以在远程机器上进行 unpickled 和执行。

所以 main 有:

    import dill (for example)
import modulea

serial=dill.dumps( modulea.func )
send (serial)

在远程机器上:

        import dill
receive serial
funcremote = dill.loads( serial )
funcremote()

如果被 pickle 和发送的函数是 main 本身定义的顶级函数,那么一切正常。当它们在导入的模块中时,加载函数失败并显示“找不到模块模块”类型的消息。

模块名称似乎与函数名称一起被 pickle。我没有看到任何方法来“修复”pickle 以删除依赖项,或者在接收器中创建一个虚拟模块以成为 unpickling 的接收者。

任何指点将不胜感激。

--普拉萨纳

最佳答案

我是 dill 的作者。我通过 ssh 做了这件事,但成功了。目前,dill 和任何其他序列化程序通过引用来 pickle 模块……因此要成功传递文件中定义的函数,您必须确保相关模块也安装在另一台机器上。我不相信有任何对象序列化程序可以直接序列化模块(即不通过引用)。

话虽如此,dill 确实有一些选项可以序列化对象依赖项。例如,对于类实例,dill 中的默认设置是不通过引用序列化类实例……因此类定义也可以序列化并与实例一起发送。在 dill 中,您还可以(使用一个非常新的功能)通过序列化文件来序列化文件句柄,而不是通过引用这样做。但是同样,如果您遇到在模块中定义函数的情况,那您就不走运了,因为模块是通过引用序列化的,非常普遍。

您也许可以使用 dill 来这样做,但是,只是不对对象进行 pickle ,而是提取源代码并发送源代码。在pathos.pppyina 中,我们使用dill 提取依赖项 任何对象(包括函数),并将它们传递给另一台计算机/进程/等。然而,由于这不是一件容易的事,dill 也可以使用尝试提取相关导入并发送它而不是源代码的故障转移。

希望您能理解,这是一件很麻烦的事情(正如我在下面提取的函数的一个依赖项中所指出的)。但是,您所要求的是在 pathos 包中成功完成,以通过 ssh 隧道端口将代码和依赖项传递到不同的机器。

>>> import dill
>>>
>>> print dill.source.importable(dill.source.importable)
from dill.source import importable
>>> print dill.source.importable(dill.source.importable, source=True)
def _closuredsource(func, alias=''):
"""get source code for closured objects; return a dict of 'name'
and 'code blocks'"""
#FIXME: this entire function is a messy messy HACK
# - pollutes global namespace
# - fails if name of freevars are reused
# - can unnecessarily duplicate function code
from dill.detect import freevars
free_vars = freevars(func)
func_vars = {}
# split into 'funcs' and 'non-funcs'
for name,obj in list(free_vars.items()):
if not isfunction(obj):
# get source for 'non-funcs'
free_vars[name] = getsource(obj, force=True, alias=name)
continue
# get source for 'funcs'

#…snip… …snip… …snip… …snip… …snip…

# get source code of objects referred to by obj in global scope
from dill.detect import globalvars
obj = globalvars(obj) #XXX: don't worry about alias?
obj = list(getsource(_obj,name,force=True) for (name,_obj) in obj.items())
obj = '\n'.join(obj) if obj else ''
# combine all referred-to source (global then enclosing)
if not obj: return src
if not src: return obj
return obj + src
except:
if tried_import: raise
tried_source = True
source = not source
# should never get here
return

我想也可以围绕 dill.detect.parents 方法构建一些东西,该方法提供指向任何给定对象的所有父对象的指针列表……并且可以重建所有函数的依赖项作为对象……但这没有实现。

顺便说一句:要建立 ssh 隧道,只需这样做:

>>> t = pathos.Tunnel.Tunnel()
>>> t.connect('login.university.edu')
39322
>>> t
Tunnel('-q -N -L39322:login.university.edu:45075 login.university.edu')

然后您可以使用 ZMQssh 或其他任何方式跨本地端口工作。如果你想用 ssh 这样做,pathos 也有内置的。

关于python - 序列化具有依赖项的 python 函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26389981/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com