gpt4 book ai didi

hadoop - Apache Drill读取gz和快速的性能

转载 作者:行者123 更新时间:2023-12-02 19:25:50 24 4
gpt4 key购买 nike

我正在使用Apache Drill 1.8。为了测试海豚,我用.csv制作了两个 Parquet 文件。 CSV大约为4GB,使用gz编解码器为120MB的拼花地板,以及带有快速编解码器的大约250GB的拼花地板。
由于Spark使用快照作为默认编解码器,因此快照在性能上应该会更快,因此我会遇到一个问题。
这是我在Hadoop上具有块大小等的文件:

  • 使用活泼的编解码器:
    enter image description here
  • 使用gz编解码器:
    enter image description here

  • 我尝试在Drill(默认情况下具有snappy编解码器)中进行查询时,snappy编解码器上的拼花文件大约为18秒。
    我尝试使用相同的查询在gz编解码器上的Drill Parquet 文件中进行查询的时间约为8秒。
    (这是一个简单的查询,选择了5列,以1列排序,但限制为1列)
    我现在有点困惑。使用I / O难道不是效率更高吗?我是在某个地方犯错误还是这是如何起作用的。
    如果有人可以向我解释这一点,我将不胜感激,因为我在网上找不到任何有用的东西。
    再次感谢您!

    最佳答案

    在您的原始帖子中,您说带有拼凑文件的 Parquet 为250 GB,您的意思是250 MB?

    至少对于HDFS,您希望 Parquet 文件的大小(行组)等于块大小。您可能有问题,因为您的块大小为128 MB,文件大小为250 MB。

    关于hadoop - Apache Drill读取gz和快速的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39368864/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com