gpt4 book ai didi

hadoop - 使用 Java 类作为映射器和 Python 脚本作为缩减器

转载 作者:可可西里 更新时间:2023-11-01 16:20:17 24 4
gpt4 key购买 nike

我正在尝试使用流式处理运行 hadoop。我有两个文件。一个是 mapper 的 java 文件,另一个是 reducer 的 python 脚本。

MerkleMapper.java

MerkleMapper 类扩展了 MapREduceBase 并定义了 map() 函数。对于输入拆分的每条记录,它读取传入的 key(byte_offset)value(line) 对并输出 byte_offset 和散列行。

Reducer 是一个 python 脚本,它结合了所有的哈希值并生成一个顶级哈希值。

是否可以将两者结合起来(java 和 python)。我如何使用 Streaming 将我的 java 文件指定为映射器。

最佳答案

您可以将其拆分为 2 个作业。

第一个作业只有一个映射器(您的 Java 映射器),您获取它的输出并将其传递到 python 流作业,其中您的映射器是身份映射器,您的缩减器是 python reducer 。目前,据我所知,您不能将流媒体和 Java 结合起来。

关于hadoop - 使用 Java 类作为映射器和 Python 脚本作为缩减器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9241394/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com