gpt4 book ai didi

java - 分几步写入 HDFS 文件的效率如何?

转载 作者:可可西里 更新时间:2023-11-01 14:56:58 26 4
gpt4 key购买 nike

我知道 HDFS block 大小为 64 MB。但是假设我创建了一个新的 HDFS 文件,并继续向其中写入数据,但一次只写入了 4KB 的数据。那会不会效率很低?到最后我的文件可能有 1GB 大小,但是一点一点地写入数据是否会使写入这样的文件效率低下?我的意思是,在写入文件之前缓冲我的数据是否重要。例如,在这种情况下,我可以不断地将数据累积到一个缓冲区中,直到它达到 64 MB 的大小,然后将其写入 HDFS 文件,并在清除该缓冲区后重复该过程。

最佳答案

首先,HDFS block 大小由您决定,默认值是可配置的,您可以在将文件放入 HDFS 时为给定文件设置不同的 block 大小。

如果你的数据不在手头,而你想把它放到 HDFS,那么使用 Flume,将源设置为你的数据生成器,将你的接收器设置为 HDFS 上的一个文件,让工具轻松完成它的工作与细节。如果数据在数据库中,您也可以转向 Sqoop。

否则,如果您正在试验,然后进行性能测试,并检查哪种方法更好,这在很大程度上取决于您的数据是如何生成的以及您如何使用哪个库。

关于java - 分几步写入 HDFS 文件的效率如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38018773/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com