gpt4 book ai didi

hadoop - HAWQ 表大小估计

转载 作者:可可西里 更新时间:2023-11-01 15:27:54 26 4
gpt4 key购买 nike

我对要加载到 HAWQ 中的表的存储大小计算/估算有疑问吗?

我在 HIVE 中有一个 30MB 的表,我正在尝试使用 PXF 将其加载到 HAWQ 中,例如:create table t2 tablespace data as select * from hcatalog.default.afs_trvn_mktscn_population;

HAWQ 中的表消耗了 369MB 的存储空间?不管我有多少个 HAWQ 段以及 HAWQ DFS.replica 因子或 HDFS 复制因子是多少?我的情况是,即使有 4 个 HAWQ 段或 1 个 HAWQ 段,加载后表的大小也是 369MB。

我能理解最小块大小是 128MB,所以即使是 30MB 也至少使用 128MB,但为什么 > 300MB?

你能分享一些这方面的信息吗?

最佳答案

您的 Hive 表可能存储为带有 Snappy 压缩的 ORC,而您的 HAWQ 表甚至没有压缩。你应该在你的 HAWQ 表中使用它:

with (appendonly=true, orientation=parquet, compresstype=snappy) 

关于hadoop - HAWQ 表大小估计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40802249/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com