gpt4 book ai didi

java - 解析 Hadoop 0.20.2 中的日志目录

转载 作者:可可西里 更新时间:2023-11-01 15:18:38 25 4
gpt4 key购买 nike

我有一个基于文本的压缩日志文件目录,每个文件包含许多记录。在旧版本的 Hadoop 中,我会扩展 MultiFileInputFormat 以返回一个自定义的 RecordReader,它解压缩日志文件并从那里继续。但我正在尝试使用 Hadoop 0.20.2。

在 Hadoop 0.20.2 文档中,我注意到 MultiFileInputFormat 已被弃用,取而代之的是 CombineFileInputFormat。但要扩展 CombineFileInputFormat,我必须使用已弃用的类 JobConfInputSplitMultiFileInputFormat 的现代等价物,或者从文件目录获取记录的现代方式是什么?

最佳答案

What is the modern equivalent of MultiFileInputFormat, or the modern way of getting records from a directory of files?

o.a.h.mapred.* 具有旧 API,而 o.a.h.mapreduce.* 是新 API。某些输入/输出格式尚未迁移到新 API。 MultiFileInputFormat/CombineFileInputFormat 尚未迁移到 20.2 中的新 API。我记得打开了一个 JIRA 来迁移丢失的格式,但我不记得 Jira #。

But to extend CombineFileInputFormat, I have to use the deprecated classes JobConf and InputSplit.

目前使用旧的 API 应该没问题。检查这个response在 Apache 论坛中。我不确定停止支持旧 API 的确切计划。我认为没有多少人开始使用新的 API,因此我认为在可预见的 future 它会得到支持。

关于java - 解析 Hadoop 0.20.2 中的日志目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11254693/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com