gpt4 book ai didi

hadoop - Input Split 大小是常量还是取决于逻辑记录?

转载 作者:可可西里 更新时间:2023-11-01 15:03:25 26 4
gpt4 key购买 nike

Hadoop 权威指南说:

When you have Minimum split size 1, Maximum split size Long.MAX_VALUE, Block 
size 64MB then the Split size is 64MB.

TextInputFormat 的逻辑记录是行。由于每行长度不同,我们如何才能将大小拆分为恰好 64MB?

最佳答案

HDFS block 是字节序列。他们不知道线条或任何其他结构。所以你可能有一个只有一个 block (当然大小为 64MB)的分割,在一行的中间结束(即不包括整个最后一行)。当您使用 TextInputFormat 读取它时,它也会注意从下一个 block 读取一些字节,以便您也获得整个最后一行。

关于hadoop - Input Split 大小是常量还是取决于逻辑记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11379718/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com