gpt4 book ai didi

hadoop - hadoop-映射/减少功能

转载 作者:行者123 更新时间:2023-12-02 21:37:44 26 4
gpt4 key购买 nike

经过一些努力之后,我才开始研究hadoop,并使wordcount示例在群集(两个数据节点)上工作。

但是我有一个关于Map / Reduce功能的问题。我读到在映射过程中,输入文件/数据被转换为另一种形式的数据,可以在简化步骤中对其进行有效处理。

假设我有四个输入文件(input1.txt,input2.txt,input3.txt,input4.txt),并且想要读取输入文件并转换为其他形式的数据以进行缩减。

所以这是问题。如果我在群集环境(两个数据节点)上运行应用程序(字数统计),是在每个数据节点上读取这四个输入文件还是在每个数据节点上读取两个输入文件?以及如何检查在哪个datanode上读取了哪个文件?

还是map(在每个数据节点上)以某种块形式读取文件而不是读取单个文件?

最佳答案

请参阅hadoop基于块而不是文件的工作。因此,即使所有四个文件都小于128MB(或64MB,具体取决于块大小),它们也只能由一个映射器读取。映射器读取的该块也称为InputSplit。我希望能回答您的问题。

关于hadoop - hadoop-映射/减少功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30944026/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com