gpt4 book ai didi

hadoop - 粉碎 HDFS 中的小文件

转载 作者:可可西里 更新时间:2023-11-01 16:15:07 29 4
gpt4 key购买 nike

我们在 Mesos 0.17 上针对 CDH5 运行 Spark 0.9.1。到目前为止,我们继续使用 CDH 系列的“mr1”版本,以便我们可以运行 filecrush。项目在我们的小文件上。由于各种原因,我们希望可以自由升级到 MR-2。

在 Hadoop 的 map/reduce 之外是否存在任何工具可以执行此操作?我们今天使用的 filecrush 库非常重要,因此将模式转换为 Spark 似乎并不简单。

最佳答案

MR1 代码通常无需更改(或很少更改)即可针对 MR2 库重新编译。那行不通吗?这可能非常简单。

您不会将其直接转换为 Spark,但您可以通过映射一堆文件并使用不同的分区输出结果来轻松实现类似的效果。您可能会遇到同样的问题,因为 Spark 将使用 HDFS 及其 InputFormat 将您的数据读入拆分,而这正是您的问题开始的地方。

关于hadoop - 粉碎 HDFS 中的小文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23098197/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com