gpt4 book ai didi

apache-spark - 如何将 PySpark 连接到 Bigquery

转载 作者:行者123 更新时间:2023-12-05 02:10:46 27 4
gpt4 key购买 nike

我正在尝试使用 PySpark 从 BigQuery 读取表格。

我试过以下方法

table = 'my-project-id.project-dataset.test_table_spark'
df = spark.read.format('bigquery').option('table', table).load()

但是,我收到了这个错误

: java.lang.ClassNotFoundException: Failed to find data source: bigquery. Please find packages at http://spark.apache.org/third-party-projects.html

如何从 pySpark 读取 bigQuery 表(目前我使用的是 python2)

最佳答案

您需要包含 spark-bigquery-connector 的 jar使用您的 spark-submit。最简单的方法是使用 --jars 标志来包含公开可用的最新版本的连接器:

spark-submit --jars gs://spark-lib/bigquery/spark-bigquery-latest.jar my_job.py

虽然这些示例引用了 Cloud Dataproc,但这在提交到任何 Spark 集群时应该有效。

关于apache-spark - 如何将 PySpark 连接到 Bigquery,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58175244/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com