gpt4 book ai didi

hadoop - mapreduce程序中的cachedDistributed文件有多少开销?

转载 作者:行者123 更新时间:2023-12-02 21:52:31 24 4
gpt4 key购买 nike

每个maped-reduce程序中的cachedDistributed文件有多少开销?我有一个mapreduce程序,其中需要有50个cachedDistributed文件(非常小),看来它们的开销比我只有1个cachedDistributed文件的情况大得多。真的吗?
据我了解,将cachedDistributed文件复制到运行映射器的每台计算机上,因此对cachedDistributed文件的访问是本地的,不应有太多开销。

最佳答案

我认为您可以尝试使用存档文件(文件自动在任务节点上未存档)。
您可以通过以下方式将存档文件添加到DistributedCache:

  • 使用使用GenericOptionsParser的工具。然后,您可以指定要分发的文件作为URI的逗号分隔列表,作为-archives选项的参数。如果不指定方案,则假定文件是本地文件。因此,在启 Action 业时,本地文件将复制到分布式文件系统(通常为HDFS)
    $> hadoop jar foo.jar ClassUsingDistributedCacheFile -archives archive.jar input output
  • 使用分布式缓存API(请参阅javaDoc)。使用API​​时,URI指定的文件必须位于共享文件系统中(因此Java API不会复制该文件。

  • 如您所说,在运行任务之前,任务跟踪器会将文件从分布式文件系统复制到本地磁盘。我认为开销来自检索HDFS中的所有小文件

    关于hadoop - mapreduce程序中的cachedDistributed文件有多少开销?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19041334/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com