gpt4 book ai didi

java - 如何将小型 ORC 文件合并或合并为大型 ORC 文件?

转载 作者:搜寻专家 更新时间:2023-11-01 04:00:28 24 4
gpt4 key购买 nike

关于 SO 和网络的大多数问题/答案都讨论了使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件,但是,我的 ORC 文件是按天分隔的日志文件,我需要将它们分开。我只想每天“汇总”ORC 文件(HDFS 中的目录)。

我很可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator这可能是我需要使用的,但现在下结论还为时过早。

解决此问题的最佳方法是什么?

最佳答案

您无需重新发明轮子。

ALTER TABLE table_name [PARTITION partition_spec] CONCATENATEHive 0.14.0. 以来,可用于将小的 ORC 文件合并到一个更大的文件中合并发生在 strip 级别,这避免了对数据进行解压缩和解码。它工作得很快。我建议创建一个按天分区的外部表(分区是目录),然后将它们全部合并指定 PARTITION (day_column)作为分区规范。

参见此处:LanguageManual+ORC

关于java - 如何将小型 ORC 文件合并或合并为大型 ORC 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50042225/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com