gpt4 book ai didi

hadoop - Spark 处理小文件(合并与 CombineFileInputFormat)

转载 作者:可可西里 更新时间:2023-11-01 14:56:29 27 4
gpt4 key购买 nike

我有一个用例,我在 S3 中有数百万个小文件需要由 Spark 处理。我有两个选项来 reduce task 数量:1.使用合并2. 扩展 CombineFileInputFormat

但我不清楚机器人的性能影响以及何时使用其中一个。

此外,CombineFileInputFormat 是一个抽象类,这意味着我需要提供我的实现。但是 Spark API (newAPIHadoopRDD) 将类名作为参数,我不确定如何传递可配置的 maxSplitSize

最佳答案

对于这种情况,要考虑的另一个很好的选择是 SparkContext.wholeTextFiles(),它为每个文件创建一条记录,其名称作为 key,内容作为 ——参见Documentation

关于hadoop - Spark 处理小文件(合并与 CombineFileInputFormat),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40296496/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com