gpt4 book ai didi

xml - 使用 Hadoop MapReduce 处理 XML

转载 作者:可可西里 更新时间:2023-11-01 15:14:18 28 4
gpt4 key购买 nike

我想加载和解析一些 PB 的 XML 数据。在对如何在 hadoop 中处理 XML 进行了大量研究之后,我开始知道 XML 必须在 Map Reduce 中作为整个文件进行处理。

如果我将整个 XML 作为单个输入拆分提供给我的 Map Reduce,那么它将不会利用 hadoop 的分布式和并行处理功能,因为只有一个 Mapper 将进行处理。

我的理解正确吗?如何克服这个问题?

请推荐

最佳答案

您可以尝试使用 Mahout 的 XMLInputFormat . XMLInputFormat 负责使用指定的开始和结束标记确定 XML 输入文件中的记录边界。

你可以使用这个 link作为如何使用 XMLInputFormat 解析 XML 文件的引用。

关于xml - 使用 Hadoop MapReduce 处理 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27519784/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com