gpt4 book ai didi

hadoop - 将一组图像作为输入传递给 mapreduce

转载 作者:行者123 更新时间:2023-12-02 21:59:49 27 4
gpt4 key购买 nike

我有一个系统,可以从某个模块获取图像(jpg)。我一次获得 10 个对象的图像(单个对象 1000 个图像)(一次总共 10000 个图像)。我需要使用 Hadoop 集群对这些图像进行一些处理。

我想知道我该怎么做。就像我应该如何形成输入一样。我想在一个映射器或 reducer 中完全处理一个对象(及其图像 = 1000)。例如:第一个映射器中的第一个对象,第二个映射器中的第二个对象等。

我想到的一些方法是:
1. 为每个对象创建一个目录并将其所有图像放入其中。然后 tar,压缩目录,这将作为单个映射器的一个输入。

  • 执行与上述相同的操作,但只需 tar 文件(不要压缩)。实现 InputFormat 接口(interface)并使“isSplittable()”返回 false。
  • 为每个对象创建序列文件。 Sequensfile 将包含每个对象图像的键值对。在这里,我不确定如何告诉 MapReduce 将序列文件只提供给一个映射器。
  • 最佳答案

    Here I am not sure how to tell MapReduce to give the sequencefile to just one mapper.



    FileInputFormat#isSplitable是您所有文件输入格式的 friend 。 SequenceFileInputFormat 扩展了 FileInputFormat。

    关于hadoop - 将一组图像作为输入传递给 mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8832708/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com