gpt4 book ai didi

hadoop - 何时以及由谁在 Hadoop 中为 MapReduce 创建输入拆分?

转载 作者:行者123 更新时间:2023-12-02 21:42:27 26 4
gpt4 key购买 nike

当我使用 -copyFromLocal 将数据文件复制到 HDFS 时command` 数据被复制到 HDFS。当我通过网络浏览器看到这个文件时,它显示复制因子为 3,文件位于“/user/hduser/inputData/TestData.txt”位置,大小为 250 MB。

我有 3 个 CentOS 服务器作为 DataNodes,CentOS Desktop 作为 NameNode 和客户端。

当我从本地复制到上​​述路径时,它到底复制到哪里?
它是否以 64 MB 的 block 复制到 NameNode 或 DataNode?
或者,在我运行 MapReduce 作业并且 map 准备拆分并将数据复制到 DataNode 之前它不会复制?

请澄清我的疑问。

最佳答案

1.当我从本地复制到上​​述路径时。它究竟复制到哪里?答:数据被复制到 HDFS 或 HADOOP 分布式文件系统。它由数据节点和名称节点组成。您复制的数据作为 block (64MB 或 64 MB 的倍数)驻留在数据节点中,哪些 block 驻留在哪个数据节点及其副本的信息存储在 namenode 中。

2.它是复制到namenode或datanode多少64 MB的拆分?或回答:您的文件将作为 64MB 的 block 存储在数据节点中,拆分的位置和顺序存储在名称节点中。

3 在我运行 MapReduce Job 之前它不会复制。 map 准备拆分并复制到数据节点。答:这不是真的。一旦数据在 HDFS 中复制,文件系统会根据设置的复制比率复制数据,而与用于复制数据的进程无关。

关于hadoop - 何时以及由谁在 Hadoop 中为 MapReduce 创建输入拆分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27718352/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com