gpt4 book ai didi

hadoop - Mapreduce XML 输入格式 - 构建自定义格式

转载 作者:可可西里 更新时间:2023-11-01 15:11:19 25 4
gpt4 key购买 nike

如果输入文件是 XML 格式,我不应该使用 TextInputFormat,因为 TextInputFormat 假定每条记录都在输入文件的每一行中,并且为每一行调用 Mapper 类以获取该记录的键值对/行。

所以我认为我们需要一种自定义输入格式来扫描 XML 数据集。

作为 Hadoop mapreduce 的新手,是否有任何文章/链接/视频显示构建自定义输入格式的步骤?

谢谢纳特

最佳答案

问题在 MapReduce 中并行处理单个 XML 文件很棘手,因为 XML 在其数据格式中不包含同步标记。因此,我们如何使用像 XML 这样本质上不可拆分的文件格式?

SolutionMapReduce doesn’t contain built-in support for XML, so we have to turn to another Apache project, Mahout, a machine learning system, which provides an XML InputFormat.

所以我的意思是自从 Mahout 库出现以来不需要自定义输入格式。我不确定您是要阅读还是写作,但以上链接中均有描述。

请看XmlInputFormat implementation details here.

此外,XmlInputFormat 扩展了 TextInputFormat

关于hadoop - Mapreduce XML 输入格式 - 构建自定义格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37848347/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com