gpt4 book ai didi

hadoop - 如何限制Hadoop Sequence文件的大小?

转载 作者:行者123 更新时间:2023-12-02 20:11:16 25 4
gpt4 key购买 nike

我正在使用txt作为输入编写Hadoop seq文件。
我知道如何从文本文件写入序列文件。

但是我想将输出序列文件限制为某些特定大小,例如256MB。

有内置的方法可以做到这一点吗?

最佳答案

否则,您将需要编写自己的自定义输出格式以限制输出文件的大小-默认情况下,FileOutputFormats为每个reducer创建单个输出文件。

另一个选择是正常创建序列文件,然后使用身份映射器创建第二个作业(仅映射),然后修改最小/最大输入拆分大小,以确保每个映射器每个仅处理¬256MB。这意味着将由4个映射器处理1GB的输入文件,并创建256MB的输出文件。您将获得较小的文件,其中输入文件为300MB(将运行256MB映射器和44MB映射器)。

您要查找的属性是:

  • mapred.min.split.size
  • mapred.max.split.size

  • 它们都配置为字节大小,因此请将它们都设置为 268435456

    关于hadoop - 如何限制Hadoop Sequence文件的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15610116/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com