gpt4 book ai didi

python - 如何spark-submit存储在GCP存储桶中的.py文件?

转载 作者:行者123 更新时间:2023-12-01 07:57:12 26 4
gpt4 key购买 nike

我正在尝试运行此文件.py 文件。我已将 dsgd_mf.py 文件复制到 GCP 存储桶中。所需的输入数据文件也在我的存储桶中。如何触发提交并获得输出? ( https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py )

我在 GCP 上运行 Jupyter 笔记本,并安装了 gcloud SDK。除了创建集群和运行 Jupiter Notebook 之外,我还没有更改任何其他内容。我看到了一些与 .jar 文件有关的选项,但我不知道并且有任何要指定或链接的 .jar 文件。我是新人,非常感谢快速帮助。请访问链接查看脚本文件。我需要帮助才能在 Google 云平台上运行此程序。

最佳答案

您是否在 Dataproc 上运行此程序?如果是这样,您应该能够使用如下内容提交 pyspark 作业:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管如此,使用 pyspark jupyter 内核会阻止作业启动(即日志会显示作业正在一遍又一遍地等待资源)。

关于python - 如何spark-submit存储在GCP存储桶中的.py文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55911136/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com