gpt4 book ai didi

apache-spark - Dataproc 未从自定义 Conda channel 安装自定义 Conda 包

转载 作者:行者123 更新时间:2023-12-04 15:23:08 25 4
gpt4 key购买 nike

我正在尝试在 GCP 中启动一个单节点 Dataproc“集群”,它从 conda-forge 和自定义 Conda channel 安装额外的包。我运行的 gcloud 命令是:

gcloud beta dataproc clusters create MY_CLUSTER_NAME \
--enable-component-gateway \
--bucket MY_GCS_BUCKET \
--region us-central1 \
--subnet default \
--zone us-central1-a \
--single-node \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--image-version 1.5-ubuntu18 \
--properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
--optional-components ANACONDA,JUPYTER \
--max-idle 7200s \
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
--project MY_PROJECT_ID \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'

我已验证我可以在本地 conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE,并且正在安装其他包。在搜索集群的日志时,我没有找到关于安装额外 conda 包的条目。

问题:

  1. 在哪里可以找到有助于调试此问题的日志?
  2. 是不是上面的命令有问题?

最佳答案

您似乎在创建集群时没有添加 conda-install.sh init 操作,请参阅此 doc 中的更多详细信息,例如:

gcloud dataproc clusters create my-cluster \
--image-version=1.4 \
--region=${REGION} \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
--initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh

您应该能够在 /var/log/dataproc-initialization-script-0.log 中找到 init 操作日志,请参阅此 doc 中的更多详细信息.

关于apache-spark - Dataproc 未从自定义 Conda channel 安装自定义 Conda 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62880958/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com