gpt4 book ai didi

hadoop - 将小文件合并为 Hadoop 分布式缓存的大文件?

转载 作者:可可西里 更新时间:2023-11-01 14:46:01 28 4
gpt4 key购买 nike

我有很多小文件(大小约 1MB)需要分发。众所周知,Hadoop 和 HDFS 更喜欢大文件。但是我不知道这是否也可以应用于分布式缓存,因为分布式文件存储在本地机器上。

如果需要合并它们,在 HDFS 上以编程方式合并文件的最佳方法是什么?

还有一个问题:使用符号链接(symbolic link)有什么好处?谢谢

最佳答案

您可以创建所有小文件的存档(tar 或 zip)并将其添加到分布式缓存中,如下所示:

DistributedCache.addCacheArchive(new URI("/myapp/myzip.zip", job);

然后按如下方式在您的映射器/缩减器中获取文件:

public void configure(JobConf job) {
// Get the cached archives/files
File f = new File("./myzip.zip/some/file/in/zip.txt");
}

阅读更多 here

关于hadoop - 将小文件合并为 Hadoop 分布式缓存的大文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15854374/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com