gpt4 book ai didi

java - 在 Hadoop 中更改文件拆分大小

转载 作者:IT老高 更新时间:2023-10-28 20:31:30 25 4
gpt4 key购买 nike

我在 HDFS 目录中有一堆小文件。虽然文件的体积相对较小,但每个文件的处理时间量很大。也就是说,一个 64mb 文件,它是 TextInputFormat 的默认分割大小,甚至需要几个小时来处理。

我需要做的是减小分割大小,这样我就可以利用更多节点来完成一项工作。

所以问题是,如何以 10kb 来分割文件?我是否需要为此实现自己的 InputFormatRecordReader ,或者是否需要设置任何参数?谢谢。

最佳答案

可以为每个作业单独设置的参数mapred.max.split.size就是您要找的。不要更改 dfs.block.size,因为这对于 HDFS 来说是全局性的,可能会导致问题。

关于java - 在 Hadoop 中更改文件拆分大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9678180/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com