gpt4 book ai didi

hadoop - 在HDFS中写入小文件

转载 作者:行者123 更新时间:2023-12-02 20:37:27 24 4
gpt4 key购买 nike

我知道这听起来很愚蠢,并且了解hadoop并不适合小文件,但不幸的是,我收到了6000多个小文件,每个文件的大小约为50kb。

每次我尝试运行“hadoop fs -put -f / path / FOLDER_WITH_FILES / target / HDSF_FOLDER”时,在与namenode建立连接时,对于一个随机文件总是会失败。

java.net.SocketTimeoutException: 75000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel

我想知道是否有更好的方法来编写HDFS小文件。

谢谢

最佳答案

始终建议将所有小文件合并到hadoop序列文件中并进行处理。
它将为您带来性能提升。

关于hadoop - 在HDFS中写入小文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50656124/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com