gpt4 book ai didi

google-cloud-dataproc - 将参数传递到 dataproc pyspark 作业

转载 作者:行者123 更新时间:2023-12-02 19:59:11 32 4
gpt4 key购买 nike

如何将参数传递到 dataproc pyspark 作业提交中调用的 python 脚本中?这是我一直在使用的命令:

 gcloud dataproc jobs submit pyspark --cluster my-dataproc \ 
file:///usr/test-pyspark.py \
--properties=^:^p1="7day":p2="2017-10-01"

这是返回的输出:

 Job [vvvvvvv-vvvv-vvvv-vvvv-0vvvvvv] submitted. Waiting for job output...
Warning: Ignoring non-spark config property: p2=2017-10-01
Warning: Ignoring non-spark config property: p1=7day
Found script=/usr/test-pyspark.py
Traceback (most recent call last):
File "/usr/test-pyspark.py", line 52, in <module>
print(sys.argv[1])
IndexError: list index out of range`

显然无法识别我试图传入的 2 个参数。我也尝试过:

me@my-dataproc-m:~$  gcloud dataproc jobs submit pyspark --cluster=my-dataproc test-pyspark.py 7day 2017-11-01

但是返回的是:

ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments:
7day
2017-11-01

我用来通过 hive 作业传递参数的模式不适用于 pyspark。

感谢任何帮助!

谢谢,梅丽莎

最佳答案

第二种形式很接近,使用“--”将作业的参数与 gcloud 的参数分开:

$ gcloud dataproc jobs submit pyspark --cluster=my-dataproc \
test-pyspark.py -- 7day 2017-11-01

关于google-cloud-dataproc - 将参数传递到 dataproc pyspark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47540414/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com