gpt4 book ai didi

java - 使用Hadoop MapReduce在不同的节点上处理不同的文件

转载 作者:行者123 更新时间:2023-12-02 21:55:55 25 4
gpt4 key购买 nike

我之前使用过Pig和Hive,但对Hadoop MapReduce还是陌生的。我需要编写一个应用程序,其中包含多个小型文件作为输入(例如10)。它们具有不同的文件结构,因此我想在单独的节点上并行处理它们,以便可以快速对其进行处理。我知道Hadoop的强项是处理大数据,但是这些输入文件虽然很小,但需要大量处理,因此我希望利用Hadoop的并行计算能力。这可能吗?

最佳答案

有可能,但您可能不会获得太多值(value)。您有这些力量对付您:
输入混乱
您需要编写一个映射器,该映射器可以处理所有不同的输入格式(通过检测输入格式,或使用输入的文件名来确定期望的格式)
多路输出
您需要使用Hadoop的稍微棘手的多输出文件处理功能,或者将输出写为化简器的副作用(如果可以确保每个文件都可以到达不同的节点,则可以使用映射器)
初始化成本高
每个hadoop map reduce作业都会带来巨大的启动成本,在小型集群上大约需要30秒,在大型集群上则更多。仅此一点,可能比您从并行获得的时间要浪费更多的时间。

关于java - 使用Hadoop MapReduce在不同的节点上处理不同的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14071246/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com