gpt4 book ai didi

hadoop - Hive索引重建与PostgreSQL相比太慢

转载 作者:行者123 更新时间:2023-12-02 21:55:07 24 4
gpt4 key购买 nike

我正在尝试比较PostgreSQL数据仓库和新创建的Hive数据仓库在相同盒子上具有相同数据和相同表结构的相同功能。我试图了解Hive的好处,但是...尽管将数据加载到PostgreSQL的速度慢了3倍-在PostgreSQL上创建/重建索引的速度快了20倍,但索引不需要每次都像 hive 。
我的问题是:Hive配置中缺少什么?

我的设置是:
创建表mytable
(
一个,
bb弦
)
行格式由'\ t'终止的字段
位置'/ data / spaces / hadoop / hadoopfs';

LOAD DATA LOCAL INPATH'/ data / Informix94 / spaces / postgres / myfile_big'覆盖到表mytable中;

使用延迟的重建位置'/ data / spaces / hadoop / hadoopfs'在表mytable(aa)上以org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'的形式创建索引mytable_indx

设置hive.optimize.autoindex = true;
设置hive.optimize.index.filter = true;

alter index mytable_indx ON mytable重建;

My Box是具有3 G内存的VM,运行PostgreSQL并占用约1 G内存。他担任元数据存储。我使用的是CentOS,Hadoop,Hive的最新稳定版本,除了matadata存储位置和统计信息禁用之外,我没有更改Hive的默认设置。

结果:
索引重建在260.000.000行上花费4798秒,在5.000.000行上花费80秒。

最佳答案

仅当您的数据不再适合一台计算机时,Hive才能正常工作。因此,您看到的结果是预期的结果。因此,一旦您收集了TB或PB的数据,您就会更喜欢 hive 。在用例中,您描述了PostgreSQL会更好。

关于hadoop - Hive索引重建与PostgreSQL相比太慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15542248/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com