gpt4 book ai didi

hadoop - 如何处理大量的 Parquet 文件

转载 作者:可可西里 更新时间:2023-11-01 15:04:01 28 4
gpt4 key购买 nike

我在 Hadoop 上使用 Apache Parquet,一段时间后我有一个问题。当我在 Hadoop 上的 Spark 中生成 Parquet 时,它会变得非常困惑。当我说凌乱时,我的意思是 Spark 作业正在生成大量 Parquet 文件。当我尝试查询它们时,我正在处理大量查询,因为 Spark 正在将所有文件合并在一起。

你能告诉我正确的处理方法吗,或者我可能会误用它们?您是否已经处理过它,您是如何解决的?

更新 1:将这些文件合并到一个 Parquet 中的一些“副业”是否足够好?最好使用什么大小的 Parquet 文件,一些上下边界?

最佳答案

看看this GitHub repo 和 this回答。简而言之,保持文件大小大于 HDFS block 大小(128MB、256MB)。

关于hadoop - 如何处理大量的 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45058368/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com