gpt4 book ai didi

hadoop - Hadoop输出和流水线式写入

转载 作者:行者123 更新时间:2023-12-02 21:49:23 25 4
gpt4 key购买 nike

几个问题:
1. File_Bytes_Read与HDfs_bytes_read有什么区别。
2.当客户端要写入文件hdfs时,如果在将第一个数据块传递到第一个Datanode时假设DN1失败,则该客户端仍将最终写入它或丢失它。在此阶段,名称节点如何处理?
谢谢
小号

最佳答案

我可以回答问题1

File_Bytes_Read:是本地文件系统读取的字节数。假设所有 map 输入数据均来自HDFS,则在 map 阶段它应该为零。另一方面,reduce的输入文件是reduce侧本地磁盘上的数据,这些数据是从map侧磁盘获取的。因此,它表示 reducer 读取的总字节数。

HDfs_bytes_read:读取的字节数:表示作业开始时映射器从HDFS读取的字节。该数据不仅包括源文件的内容,还包括有关拆分的元数据。

关于hadoop - Hadoop输出和流水线式写入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22370229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com