gpt4 book ai didi

hadoop - HDFS并行读取大文件

转载 作者:行者123 更新时间:2023-12-02 21:41:58 27 4
gpt4 key购买 nike

我想从具有5个节点的hadoop集群中读取一个大小为500GB的大文件。我可以并行读取块还是必须一一读取块?

最佳答案

如果您使用的是MapReduce / Hive / Pig,则将根据块数自动并行读取块。

假设,如果要对500GB文件执行字计数,并且块大小为128MB,则将有4个块,因此MapReduce将启动4个Mappers(最好是尽可能靠近数据的位置-数据局部性)以并行执行字计数。

关于hadoop - HDFS并行读取大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28104926/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com