gpt4 book ai didi

hadoop - HDFS FileSplit位置

转载 作者:行者123 更新时间:2023-12-02 20:09:08 25 4
gpt4 key购买 nike

我的集群安装了hadoop-2.1.0-beta。有没有一种方法可以了解每个文件拆分在群集中的位置?我正在寻找的是以下列表

filesplit_0001 node1
filesplit_0002 node4
...

编辑:我知道这样的列表在Microsoft Azure中可用。

最佳答案

fsck 工具提供了一种简单的方法来找出任何特定文件中的块。例如:

% hadoop fsck <path> -files -blocks -locations -racks

引用: Hadoop Command Line Guide.

编辑:

输入拆分是由单个映射处理的输入的一部分。每个 map 处理单个拆分。每个拆分均分为多个记录,并且映射依次处理每个记录的键值对。 拆分和记录是逻辑的,但HDFS块是物理的。
InputSplit的长度(以字节为单位)和一组存储位置,它们只是主机名字符串。拆分不包含输入数据;它只是对数据的引用。

您可以使用 InputSplit方法获取 map实例。
InputSplit inputSplit=context.getInputSplit(); //Input split instance 
String[] splitLocations = inputSplit.getLocations();

关于hadoop - HDFS FileSplit位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18863799/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com