gpt4 book ai didi

hadoop - hadoop中的文件拆分/分区

转载 作者:行者123 更新时间:2023-12-02 21:57:30 28 4
gpt4 key购买 nike

在hadoop文件系统中,我有两个文件,分别是X和Y。通常,hadoop制作的文件X和Y的大小为64 MB。是否可以强制hadoop划分两个文件,以便从X的32 MB和Y的32 MB中创建一个64 MB的块。换句话说,是否可以覆盖文件分区的默认行为?

最佳答案

文件分区是FileInputFormat的功能,因为它在逻辑上取决于文件格式。您可以使用任何其他格式创建自己的输入。因此,每个文件都可以-您可以做到。
在单个拆分中将不同文件的两部分混合听起来很麻烦-因为文件是处理的基本单位。
为什么会有这样的要求?
我看到下面的要求。可以说,必须至少部分牺牲数据的局部性-我们可以对一个文件而不是对两个文件都局部运行map。
我建议构建某种“文件对”文件,将其放入分布式缓存中,然后在map函数中从HDFS加载第二个文件。

关于hadoop - hadoop中的文件拆分/分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10285254/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com