gpt4 book ai didi

java - 如何为Hadoop中的映射器功能手动定义输入拆分

转载 作者:行者123 更新时间:2023-12-02 21:35:19 26 4
gpt4 key购买 nike

我有一个要通过map reduce解析的文本文件。
文件具有以下提到的格式:

<main node>
<type 1> --data--
<type 2> ---data
.
.
.
<type n> --data
</main node>

<main node>
<type 1> --data--
<type 2> ---data
.
.
.
<type n> --data
</main node>

我希望map函数根据主节点进行拆分。这样每个拆分都只有一个主节点及其数据。
所有主节点都以相同的语法开头。
是否可以为Map函数定义这样的输入拆分?
附言这不是xml文件。尽管看起来像一个。

最佳答案

看起来您的输入文件是XML格式。
在这种情况下,您可以将TextInputFormat类替换为XMLInputFormat类。
这意味着,而不是映射器将每行作为输入,而是将每个main_node作为输入。

查看下面的链接,

https://svn.apache.org/repos/asf/mahout/trunk/integration/src/main/java/org/apache/mahout/text/wikipedia/XmlInputFormat.java

在找到工作示例
https://github.com/ajaysadhu/XML_MR_Reader

希望对您有所帮助。

关于java - 如何为Hadoop中的映射器功能手动定义输入拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32745951/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com