gpt4 book ai didi

xml - XML文件输入映射/减少Hadoop Windows Server

转载 作者:行者123 更新时间:2023-12-02 21:53:16 25 4
gpt4 key购买 nike

我正在Windows Server上安装的Hadoop平台(由HortonWorks开发)上工作,并在C#中编码Map / Reduce文件。

我有一个包含100k xml文件的输入文件夹。我想读取每个xml文件并将每个标签写在一行中。请按照以下示例。

输入:

<Person>
<a>1</a>
<b>2</b>
<c>3</c>
</Person>

输出值
1,2,3
....
....

截至目前,您能为我提供有关如何读取数据的信息吗? Mapper提供有每个文件的单独文件,在其中很难解析单独的标签。

最佳答案

您的第一个任务是找到一种读入xml文件并将其提供给MR作业的方法,因为没有可用于xml文件的内置InputFormat。如果需要帮助,请参阅thisthis(尚未亲自测试它们,但对我来说它们看起来不错)。您将在作业配置期间在您提供的开始和结束标记中获得内容,作为映射器中的值。提取所需的值并生成输出。高温超导

关于xml - XML文件输入映射/减少Hadoop Windows Server,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18024368/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com