gpt4 book ai didi

apache-spark-sql - Cloud Composer - DAG 错误 : java. lang.ClassNotFoundException:找不到数据源:bigquery

转载 作者:行者123 更新时间:2023-12-04 17:09:34 25 4
gpt4 key购买 nike

我正在尝试执行在 Cloud Composer 中创建 Dataproc 集群的 DAG。但是在尝试保存 Big Query 时失败了。我想这缺少一个 jar 文件 (--jars gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar),但我不知道如何添加到我的代码中。

代码:

submit_job = DataprocSubmitJobOperator(
task_id="pyspark_task",
job=PYSPARK_JOB,
location=REGION,
project_id=PROJECT_ID)

如果在集群上调用这个作业,它就可以工作。

gcloud dataproc 作业提交 pyspark --cluster cluster-bc4b --jars gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar --region us-central1 ~/examen/ETL/loadBQ.py

但我不知道如何在 Airflow 上复制

PySpark 上的代码:

df.write .format("bigquery") .mode("append") .option("temporaryGcsBucket","ds1-dataproc/temp") .save("test-opi-330322.test. Base3")

最佳答案

在你的例子中

submit_job = DataprocSubmitJobOperator(
task_id="pyspark_task",
job=PYSPARK_JOB,
location=REGION,
project_id=PROJECT_ID)

jar 应该是 PYSPARK_JOB 的一部分,例如

PYSPARK_JOB = {
"reference": {"project_id": PROJECT_ID},
"placement": {"cluster_name": CLUSTER_NAME},
"pyspark_job": {
"main_python_file_uri": PYSPARK_URI,
"jar_file_uris": ["gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"],
},
}

查看此 doc .

关于apache-spark-sql - Cloud Composer - DAG 错误 : java. lang.ClassNotFoundException:找不到数据源:bigquery,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69775465/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com