gpt4 book ai didi

java - 使用Java将HDFS文件拆分为多个本地文件

转载 作者:行者123 更新时间:2023-12-02 21:54:58 26 4
gpt4 key购买 nike

我必须先使用Java代码将HDFS文件复制到本地文件系统中,然后再将其分成多个部分写入磁盘。使用snappy / lzo压缩文件。我已经使用Bufferedreader和Filewriter来读写文件。但是这个操作很慢。 30 GB文件需要20分钟。我可以在2分钟内使用hadoop fs -text转储文件(但无法拆分)。还有什么我可以做以加快操作速度的吗?

最佳答案

由于我有两次通过,首先获取行数,然后进行拆分。 hadoop fs -text是cpu密集型。是否采取以下方法:

1)使用行数Java程序作为Map reduce来获取文件中的行数。然后将其除以文件总数,我需要得到写入每个文件的行数。

2)在hadoop fs -text中使用此链接提到的代码

https://superuser.com/a/485602/220236

希望它可以帮助别人。

关于java - 使用Java将HDFS文件拆分为多个本地文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15775223/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com