gpt4 book ai didi

hadoop - hadoop如何读取所有数据然后拆分成 block ?

转载 作者:行者123 更新时间:2023-12-02 22:07:50 24 4
gpt4 key购买 nike

我正在使用hadoop 2.6处理足够的数据,所以我对hadoop如何读取所有数据然后拆分成块有疑问。我了解先将数据上传到hdfs,然后将数据分成N个块,具体取决于块的大小。如果我有1TB的文本用于做wordcount算法,我想hadoop首先会提高内存容量,读取文件,然后以某种方式读取x行,然后将数据复制成块。

如果我的假设是错误的,那么正确的方法是怎么做,因为我认为将数据提升到内存中,因此应该分步进行。当你在内部做的时候

谢谢
干杯

最佳答案

您将数据上传到HDFS语句正确。

当启动字数统计表 MapReduce作业时,将为每个卡盘(块)分配一个Mapper任务并执行。在Mappers阶段之后,将Reducers的输出发送到sort-shuffle。在sort-shuffle期间,Mapper输出为partitionedsortedreceived (copied) by the Reducers
MapReduce框架不读取任何数据并将其复制到任何卡盘中。当您将文件存储在HDFS中时,这已经完成。

关于hadoop - hadoop如何读取所有数据然后拆分成 block ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33106214/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com