gpt4 book ai didi

apache-spark - 将 Spark 数据帧保存为 Hive 中的动态分区表

转载 作者:可可西里 更新时间:2023-11-01 14:07:25 26 4
gpt4 key购买 nike

我有一个示例应用程序,用于将 csv 文件读取到数据框中。可以使用以下方法将数据框以 Parquet 格式存储到 Hive 表中df.saveAsTable(tablename,mode)

上面的代码工作正常,但我每天都有太多数据,所以我想根据创建日期(表中的列)对配置单元表进行动态分区。

有什么方法可以动态分区数据框并将其存储到配置单元仓库中。想要避免使用 hivesqlcontext.sql(insert into table partittioin by(date)......) 对插入语句进行硬编码。

问题可以被认为是对:How to save DataFrame directly to Hive? 的扩展

非常感谢任何帮助。

最佳答案

我相信它是这样工作的:

df是一个包含年月等列的dataframe

df.write.partitionBy('year', 'month').saveAsTable(...)

df.write.partitionBy('year', 'month').insertInto(...)

关于apache-spark - 将 Spark 数据帧保存为 Hive 中的动态分区表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31341498/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com