gpt4 book ai didi

amazon-s3 - Hadoop 输入文件

转载 作者:可可西里 更新时间:2023-11-01 16:27:31 25 4
gpt4 key购买 nike

在运行 hadoop 时,输入文件夹中有 n 个文件,每个文件有 1 行,与输入文件夹中有 1 个文件,有 n 行,这两者有区别吗?

如果有 n 个文件,“InputFormat”是否只将其视为 1 个连续文件?

最佳答案

有很大的不同。它经常被称为“小文件问题”,并且与 Hadoop 希望将巨大的输入拆分为更小的任务,而不是将小的输入收集到更大的任务中这一事实有关。

看看 Cloudera 的这篇博文: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

如果可以避免创建大量文件,那就这样做吧。尽可能串联。大型可拆分文件更适合 Hadoop。

我曾经在 netflix 数据集上运行 Pig。处理几场演出就花了几个小时。然后,我将输入文件(我认为是每部电影一个文件,或每个用户一个文件)连接成一个文件——几分钟后就得到了结果。

关于amazon-s3 - Hadoop 输入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1223734/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com