gpt4 book ai didi

sql - 提高 apache 配置单元的性能

转载 作者:可可西里 更新时间:2023-11-01 16:15:05 25 4
gpt4 key购买 nike

我的 HDFS 接收器中有 5GB 的数据。当我在 Hive 上运行任何查询时,它需要超过 10-15 分钟才能完成。我运行时得到的行数,

select count(*) from table_name

是 3,880,900。我的虚拟机有 4.5 GB 内存,它在 MBP 2012 上运行。我想知道在表中创建索引是否会提高性能。还有其他方法可以告诉配置单元只使用这么多数据或行以便更快地获得结果吗?即使查询是针对较小的数据子集运行的,我也可以接受,至少可以瞥见结果。

最佳答案

是的,索引应该有所帮助。但是,获取数据子集(使用限制)并没有多大帮助,因为配置单元在限制输出之前仍会扫描整个数据。

您可以尝试使用 RCFile/ORCFile 格式以获得更快的结果。在我的实验中,基于 RCFile 的表执行查询的速度大约比基于文本文件/序列文件的表快 10 倍。

关于sql - 提高 apache 配置单元的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23177549/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com