gpt4 book ai didi

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

转载 作者:可可西里 更新时间:2023-11-01 15:35:49 27 4
gpt4 key购买 nike

我正在为 NLP 处理等开发 pyspark。我正在使用 TextBlob Python 库。

通常,在独立模式下,安装外部 Python 库很容易。在集群模式下,我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在 Python 路径中安装这些库。

我尝试使用 Sparkcontext pyfiles 选项传送 .zip 文件...但问题是这些 Python 包需要安装在工作机器上。

是否有不同的方法可以使这个 lib-Textblob 在 Python 路径中可用?

最佳答案

I tried to use Sparkcontext pyfiles option to ship .zip files...but the problem is these Python packages needs to be get installed on worker machines.

我猜你使用的是 defautl URL schema(local:)local: - 以 local:/开头的 URI 应作为本地文件存在于每个工作节点上。这意味着不会产生网络 IO,并且适用于推送给每个工作人员或通过 NFS、GlusterFS 等共享的大文件/JAR

另一个 URL schema 是 file:,每个执行器自动从驱动程序 HTTP 服务器拉取文件,然后你不需要在工作机器上安装它们。file: - 绝对路径和 file:/URI 由驱动程序的 HTTP 文件服务器提供,每个执行程序从驱动程序 HTTP 服务器拉取文件。

请引用 Submitting Applications - Advanced Dependency Management

关于python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25804995/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com