gpt4 book ai didi

python - 在 spark-submit 之前安装 pyspark 作业的要求

转载 作者:行者123 更新时间:2023-12-05 08:11:48 37 4
gpt4 key购买 nike

我想在 Spark 集群上运行一个 Python 应用程序,通过 spark-submit 将它发送到那里。该应用程序有多个依赖项,例如 pandasnumpyscikit-learn。什么是确保在提交作业之前安装依赖项的干净方法?

由于我已经使用 virtualenv 进行开发,因此可以轻松生成 requirements.txt

最佳答案

您必须在集群模式下运行作业。假设您使用 Yarn 作为调度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也试试下面的方法

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于 Pandas ,如果你有确切的数据结构,你可以调用 toPandas()

numpy 通常集成到许多 pyspark 调用中,但不确定这一点。

关于python - 在 spark-submit 之前安装 pyspark 作业的要求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49908264/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com