gpt4 book ai didi

apache-spark - 如何让 PySpark 在 Google Cloud Dataproc 集群上运行

转载 作者:行者123 更新时间:2023-12-04 15:49:56 33 4
gpt4 key购买 nike

我有一系列问题(抱歉,Google 文档很糟糕,对用户不友好):

  1. Dataproc 相当于 Google Cloud 上的 Amazon EMR 是什么?我正在使用此文档来运行 Spark 作业:https://cloud.google.com/dataproc/docs/tutorials/gcs-connector-spark-tutorial
  2. 您能否通过 ssh 连接到主机并在整个集群中运行 Spark,或者您是否已使用 Google 的 gcloud dataproc jobs submit ... 命令?
  3. 当我在本地运行 Spark 作业并尝试访问 Google Cloud Storage 时,我没有遇到任何问题。当我尝试使用 Dataproc 时,它崩溃了。

我已阅读:

到目前为止我已经尝试过:

  • 我已将 gcs-connector-hadoop2-latest.jarmy_project.json 放在我的主节点和工作节点上 /etc/hadoop/conf
  • 我在主节点和工作节点上将以下内容添加到 /etc/hadoop/conf/core-site.xml:

    <property>
    <name>google.cloud.auth.service.account.enable</name>
    <value>true</value>
    </property>
    <property>
    <name>my_project.json</name>
    <value>full path to JSON keyfile downloaded for service account</value>
    </property>
  • 我尝试运行以下命令:

    sudo gcloud dataproc jobs submit pyspark  spark.py --cluster=${CLUSTER}

    sudo gcloud dataproc jobs submit pyspark \
    --jars /etc/hadoop/conf/gcs-connector-hadoop2-latest.jar \
    spark.py --cluster=${CLUSTER}
  • 我不断收到以下错误:

    No FileSystem for scheme: gs

我不知道下一步该做什么。

最佳答案

  1. 是的,Google Dataproc 相当于 AWS EMR。

  2. 是的,你can ssh into the Dataproc master node使用 gcloud compute ssh ${CLUSTER}-m 命令和 submit Spark jobs manually , 但建议使用 Dataproc API 和/或 gcloud 命令来 submit jobs到 Dataproc 集群。请注意,您可以使用 gcloud 命令从任何具有 gcloud installed 的机器将作业提交到 Dataproc 集群,您不需要从 Google Cloud VM 执行此操作,例如Dataproc 主节点。

  3. 要从提交到 Dataproc 集群的作业访问 Google Cloud Storage (GCS),您无需执行任何配置(Dataproc 具有 pre-installed GCS connector,并且已配置为访问 GCS)。

    <

您可以使用以下命令在 Dataproc 集群上提交 PySpark 作业(注意,首先您需要将 PySpark 作业文件复制到 GCS 并在提交 Dataproc 作业时使用它):

gsutil cp spark.py gs://<BUCKET>/path/spark.py
gcloud dataproc jobs submit pyspark --cluster=${CLUSTER} \
gs://<BUCKET>/path/spark.py

关于apache-spark - 如何让 PySpark 在 Google Cloud Dataproc 集群上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54248418/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com