gpt4 book ai didi

apache-spark - 如何指定saveAsTable保存文件的路径?

转载 作者:行者123 更新时间:2023-12-04 01:31:53 25 4
gpt4 key购买 nike

我正在尝试使用 DataFrameWriter 在 Spark1.4 中的 pyspark 中将 DataFrame 保存到 S3

df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite')

Parquet 文件转到“/tmp/hive/warehouse/....”,这是我的驱动程序上的本地 tmp 目录。

我确实将 hive-site.xml 中的 hive.metastore.warehouse.dir 设置为“s3a://....”位置,但 spark 似乎不尊重我的 hive 仓库设置。

最佳答案

使用 path .

df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite',
path='s3a://bucket/foo')

关于apache-spark - 如何指定saveAsTable保存文件的路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30874928/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com