gpt4 book ai didi

python - 使用 numpy、pandas 和 scikit-learn 等依赖包运行 pyspark

转载 作者:行者123 更新时间:2023-11-28 17:33:27 31 4
gpt4 key购买 nike

我最近开始使用 pyspark 来使用 scikit-learn。但是我们没有权限在worker节点安装numpy之类的依赖包。我们是否有可能打包一个 virtualenv 并使用 --py-files 动态发送给工作人员并以某种方式提取它并告诉 spark 使用我自己的 python(具有依赖性)。感谢任何评论。

谢谢

最佳答案

如何正确加载一个虚拟环境给master和所有slave worker:

virtualenv venv --relocatable
cd venv
zip -qr ../venv.zip *

PYSPARK_PYTHON=./SP/bin/python spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./SP/bin/python --driver-memory 4G --archives venv.zip#SP filename.py

关于python - 使用 numpy、pandas 和 scikit-learn 等依赖包运行 pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32711804/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com