gpt4 book ai didi

hadoop - Hive插入流数据产生的小文件如何管理?

转载 作者:可可西里 更新时间:2023-11-01 14:30:13 26 4
gpt4 key购买 nike

我正在使用简单的 Kafka 消费者读取 Kafka 消息。
将输出存储到 HDFS 并进行一些过滤。

过滤后,我将这些数据写入 Hive,这会导致小的 orc 文件进入 Hive。

有人可以建议我如何处理这种情况吗?

最佳答案

之后您可以通过运行来减少现有 ORC 文件的数量

ALTER TABLE tablename CONCATENATE;
or ALTER TABLE tablename PARTITION (field=value) CONCATENATE;

为了防止 HIVE 生成太多的 ORC 文件,请尝试

set hive.merge.mapredfiles=true;

关于hadoop - Hive插入流数据产生的小文件如何管理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51153295/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com