gpt4 book ai didi

hadoop - 使用mapreduce解析多个XML文件数据

转载 作者:行者123 更新时间:2023-12-02 21:44:17 25 4
gpt4 key购买 nike

我想解析具有以下结构的多个XML文件

<parent tag property1='p1' xmlns:'sm link'>
<Tag 1> tag 1 value </Tag 1>
<Tag 2> tag 2 value </Tag 2>
<Tag 3>
<Tag 3.1> tag 3.1 value </Tag 3.1>
</Tag 3>
</parent tag>

我想编写一个Map Reduce代码并将解析的数据转储到HDFS(Hadoop 1.0)中。
还有如何一次通过多个苍蝇的方法。

任何帮助都会很好。
在此先感谢。

最佳答案

您可以使用mahaout的XmlInputFormat读取XML数据。

并在驱动程序类中设置这些配置设置。

conf.set("xmlinput.start","<root")` 
conf.set("xmlinput.end", "</root>");
job.setInputFormatClass(XmlInputFormat.class);

下载mahaout的jar文件。

将每个文件视为字符串,然后进行处理。

为了将多个文件作为输入运行,请将所有文件放在一个文件夹中,并提供输入路径作为文件夹路径。

关于hadoop - 使用mapreduce解析多个XML文件数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26646675/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com