gpt4 book ai didi

python - 将 pyspark 中的 Python 模块发送到其他节点

转载 作者:IT老高 更新时间:2023-10-28 20:26:34 27 4
gpt4 key购买 nike

如何将 C 编译模块(例如 python-Levenshtein)发送到 Spark 中的每个节点集群?

我知道我可以使用独立的 Python 脚本在 Spark 中发送 Python 文件(示例代码如下):

from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])

但是在没有 '.py' 的情况下,我如何发送模块?

最佳答案

如果你可以将你的模块打包成一个.egg或者.zip文件,你应该可以在构建的时候把它列在pyFiles中您的 SparkContext(或者您可以稍后通过 sc.addPyFile 添加它)。

对于使用 setuptools 的 Python 库,您可以运行 python setup.py bdist_egg 来构建 egg 发行版。

另一种选择是在集群范围内安装库,方法是在每台机器上使用 pip/easy_install 或通过在集群范围的文件系统(如 NFS)上共享 Python 安装。

关于python - 将 pyspark 中的 Python 模块发送到其他节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24686474/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com