gpt4 book ai didi

Hadoop : Why using FileSplit in the RecordReader Implementation

转载 作者:可可西里 更新时间:2023-11-01 16:57:52 24 4
gpt4 key购买 nike

在 Hadoop 中,考虑一个场景,如果一个大文件已经加载到 hdfs 文件系统中,使用 hdfs dfs put 或 hdfs dfs CopyFromLocal 命令,大文件将被分成 block (64 MB)。

在这种情况下,当必须创建一个 customRecordReader 来读取大文件时,请解释使用 FileSplit 的原因,当大文件在文件加载过程中已经被分割并且以分割 block 的形式可用时。

最佳答案

Pls explain the reason for using FileSplit, when the bigfile is already splitted during the file loading progress and available in the forms of splitted blocks.

我认为您可能对 FileSplit 是什么感到困惑实际上是。假设您的大文件128MB,您的 block 大小是64MBbigfile 将占用两个 block 。你已经知道了。当在 MapReduce 中处理文件时,您还将(通常)得到两个 FileSplit。每个 FileSplit 映射到一个 block ,因为它之前已加载。

请记住,FileSplit 类不包含文件的任何实际数据。它只是指向文件中数据的指针。

关于Hadoop : Why using FileSplit in the RecordReader Implementation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27717719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com