gpt4 book ai didi

java - 使用mapreduce处理hadoop中的压缩xml文件

转载 作者:行者123 更新时间:2023-12-02 21:35:40 25 4
gpt4 key购买 nike

我有一个像这样的文件结构。

a.zip包含a1.zip,a2.zip,a3.zip,然后每个压缩文件每个zip都有一个xml文件。

我需要处理这些xml文件。目前,我正在从a.zip中提取压缩文件,将其存储在hdfs中,并运行MR作业以使用自定义输入格式和记录阅读器来处理a1.zip,a2.zip.....。

任何人都可以通过更好的解决方案帮助我,而不必解压缩a.zip并仍然并行处理文件。

最佳答案

为什么不编写可从主程序调用的普通Java预处理程序类。步骤将是:

1)预处理程序类将以编程方式将a.zip文件提取到临时位置。

2)以编程方式将子zip类添加到hdfs。

3)以您现在的方式触发XML处理。

4)如果愿意,可以扩展预处理器类以直接放置XML,从而可以使xml处理程序更简单。

让我知道这里是否有不清楚的地方。

关于java - 使用mapreduce处理hadoop中的压缩xml文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32472302/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com