gpt4 book ai didi

python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败

转载 作者:可可西里 更新时间:2023-11-01 16:40:13 24 4
gpt4 key购买 nike

我可以通过以下方式在 yarn 上成功运行 pi.py 示例:./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py.

但是当我运行 ./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/ml/logistic_regression_with_elastic_net.py 时,失败了。错误消息:容器以非零退出代码 1 退出

通过比较这两个文件,我发现在将 from pyspark.ml.classification import LogisticRegression 添加到 pi.py 之后,运行 pi.py 也失败了。

但是我不知道怎么解决。我还有另一个问题:当我运行 ml 示例时,我必须将自己的数据文件上传到 hdfs,所以我尝试使用 --files,对吗?如果没错,由于不知道数据文件在hdfs上的路径,所以python脚本是获取不到数据文件的。 (我可以看到文件上传到hdfs后的路径,即hdfs://master:9000/user/root/.sparkStaging/application_1488329960574_0011/mnist8m_800但是来不及了,我可以指定路径吗我什么时候提交?)

最佳答案

要运行 logistic_regression_with_elastic_net,您需要像这样将示例 libsvm 数据上传到 HDFS:

$ hdfs dfs -mkdir -p data/mllib
$ hdfs dfs -put data/mllib/sample_libsvm_data.txt data/mllib

然后示例将在 yarn-client 和 yarn-cluster 模式下工作。

据我所知,--files 上传的文件无法使用 spark session 读取(如回归示例)。

关于python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42523060/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com