gpt4 book ai didi

apache-spark - 数据集中的分割数超过数据集分割限制,Dremio + Hive + Spark

转载 作者:行者123 更新时间:2023-12-02 20:23:39 24 4
gpt4 key购买 nike

我们有一个由Hadoop + Hive + Spark + Dremio组成的堆栈,因为Spark为一个Hive分区写入多个HDFS文件(取决于工作人员),由于超出了HDFS文件数限制,因此在查询表时Dremio失败,是否存在解决此问题的方法而不必手动在Spark中设置较少的 worker ?(我们不想失去Spark的分布式性能和优势)。

最佳答案

您可以使用repartition在每个分区上创建1个文件。这将确保每个分区至少有1个任务,这将确保在Spark作业中维护足够的并行度。

df.repartition($"a", $"b", $"c", $"d", $"e").write.partitionBy("a", "b", "c", "d", "e").mode(SaveMode.Append).parquet(s"$location")

关于apache-spark - 数据集中的分割数超过数据集分割限制,Dremio + Hive + Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58719052/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com