gpt4 book ai didi

hadoop - 如何将大部分数据合并到 spark/Hive 中的单个目录中

转载 作者:可可西里 更新时间:2023-11-01 16:37:46 26 4
gpt4 key购买 nike

我有一个要求,对大量数据进行分区并将其插入到 Hive 中。为了绑定(bind)这些数据,我使用了 DF.Coalesce(10)。现在我想将这个分区数据绑定(bind)到单个目录,如果我使用 DF.Coalesce(1) 性能会降低吗?或者我有任何其他流程可以这样做吗?

最佳答案

据我了解,您正在尝试确保每个分区的文件数较少。因此,通过使用 coalesce(10),每个分区最多可获得 10 个文件。我会建议使用 repartition($"COL"),这里 COL 是用于分区数据的列。这将确保您的“巨大”数据根据 HIVE 中使用的分区列进行拆分。 df.repartition($"COL")

关于hadoop - 如何将大部分数据合并到 spark/Hive 中的单个目录中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48406372/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com