gpt4 book ai didi

apache-spark - Kubernetes 上 Spark 应用程序的 Numpy 和其他库依赖项

转载 作者:行者123 更新时间:2023-12-02 12:18:40 26 4
gpt4 key购买 nike

我在 Kubernetes 上运行 pyspark 应用程序 v2.4.0,我的 spark 应用程序依赖于 numpy 和 tensorflow 模块,请建议将这些依赖项添加到 Spark 执行器的方法。

我检查了文档,我们可以使用--py-files、--jars 等包含远程依赖项,但没有提到库依赖项。

最佳答案

找到了在K8S上将库依赖添加到Spark应用的方法,想在这里分享一下。

在 Dockerfile 中提到所需的依赖项安装命令并重建 spark 镜像,当我们提交 spark 作业时,新容器也将与依赖项一起实例化。

Dockerfile (/{spark_folder_path}/resource-managers/kubernetes/docker/src/main/dockerfiles/spark/bindings/python/Dockerfile) 内容:

RUN apk add --no-cache python && \
apk add --no-cache python3 && \
python -m ensurepip && \
python3 -m ensurepip && \
# We remove ensurepip since it adds no functionality since pip is
# installed on the image and it just takes up 1.6MB on the image
rm -r /usr/lib/python*/ensurepip && \
pip install --upgrade pip setuptools && \
# You may install with python3 packages by using pip3.6
pip install numpy && \
# Removed the .cache to save space
rm -r /root/.cache

关于apache-spark - Kubernetes 上 Spark 应用程序的 Numpy 和其他库依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53278159/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com