gpt4 book ai didi

python - 无法从 PySpark 将 Spark 数据帧保存到 Google Cloud Storage

转载 作者:太空宇宙 更新时间:2023-11-03 14:29:43 55 4
gpt4 key购买 nike

我有一个 Spark 数据框,我正在尝试使用以下行将其保存到 Google 存储桶

df.write.format("com.databricks.spark.csv").save('gs://some-test-bucket-delete-me')

但是 Pyspark 引发以下异常

Py4JJavaError: An error occurred while calling o55.save.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found

我尝试过的:

此异常的典型解决方案是确保环境变量 HADOOP_CLASSPATH 指向 gcs-connector-latest-hadoop2.jar 文件,它确实如此。我尝试过使用 Hadoop 版本 1 和版本 2 jar,以防出现问题。我尝试在 Jupyter 笔记本中使用

明确指向它
sc._jsc.hadoopConfiguration().set("spark.driver.extraClassPath", "/home/****/hadoop-2.8.2/share/hadoop/common/lib/gcs-connector-latest-hadoop1.jar")

没有效果。

如果我在 bash 中尝试 hadoop fs -ls gs://gs://some-test-bucket-delete-me,命令会完美返回,这应该表明 Google云存储连接可以工作,但由于某种原因,我似乎无法在 PySpark 中使用此功能。

可能重要的事情:

Spark 版本 2.2.0

Python 3.6.1::Anaconda 自定义(64 位)

我在本地运行 PySpark

最佳答案

您应该首先运行 gcloud init

然后尝试df.write.csv('gs://some-test-bucket-delete-me/file_name')

关于python - 无法从 PySpark 将 Spark 数据帧保存到 Google Cloud Storage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47386168/

55 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com