gpt4 book ai didi

google-cloud-platform - 如何在实例化 Dataproc 工作流模板时传递和访问 Dataproc Sparkjob 参数

转载 作者:行者123 更新时间:2023-12-04 08:02:03 26 4
gpt4 key购买 nike

我正在使用 Dataproc 工作流模板来运行 Sparkjob。我想将输入文件动态传递给 Sparkjob args,同时通过 Dataproc 工作流模板实例化它。我怎样才能实现它?

最佳答案

Parameterization of Dataproc Workflow Templates .
示例模板 ( my_template.yaml ):

...
jobs:
- stepId: job1
sparkJob:
...
args:
- 'input file URI'
- 'output directory'
parameters:
- name: INPUT_FILE
fields:
- jobs['job1'].sparkJob.args[0]
- name: OUTPUT_DIR
fields:
- jobs['job1'].sparkJob.args[1]
创建/导入模板:
gcloud dataproc workflow-templates import my-template \
--region=<region> \
--source=my_template.yaml
使用 args 实例化模板:
gcloud dataproc workflow-templates instantiate my-template \
--region=<region> \
--parameters=INPUT_FILE=gs://my-bucket/test.txt,OUTPUT_DIR=gs://my-bucket/output/

关于google-cloud-platform - 如何在实例化 Dataproc 工作流模板时传递和访问 Dataproc Sparkjob 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66409366/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com