gpt4 book ai didi

用于大图像处理的 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:21:41 25 4
gpt4 key购买 nike

我有一组 50TB 的 ~1GB tiff 图像,我需要在这些图像上运行相同的算法。目前,我有用 C++ 编写的整改过程并且运行良好,但是连续运行所有这些图像将花费很长时间。我知道 MapReduce/Spark 的实现可以工作,但我似乎无法弄清楚如何使用图像输入/输出。

我见过的每个教程/示例都使用纯文本。理论上,我也想使用 Amazon Web Services。如果有人对我有一些指导,那就太好了。我显然不是在寻找完整的解决方案,但也许有人已经成功地实现了接近于此的解决方案?提前致谢。

最佳答案

您的数据在 HDFS 中吗?您究竟希望从 Hadoop/Spark 中利用什么?在我看来,您所需要的只是一个文件名队列和一堆要执行的机器。

您可以将您的应用程序打包到 AWS Lambda(请参阅 Running Arbitrary Executables in AWS Lambda)和 trigger events对于每个文件。您可以将您的应用程序打包到一个 Docker 容器中,并在 ECS 中启动其中的一堆,让它们在文件名(或 URL 或 S3 存储桶)队列中松动以进行处理。

我认为 Hadoop/Spark 有点矫枉过正,特别是因为它们在处理 1GB 分割作为输入时非常糟糕,而且您的处理不是 M/R(没有要合并的缩减器的键值)。如果必须,您可以打包 C++ 应用程序以从标准输入读取并使用 Hadoop Streaming .

最终,问题是:50TB 的数据存储在哪里,是什么格式?解决方案在很大程度上取决于答案,因为您希望将计算带到数据所在的位置,并避免将 50TB 传输到 AWS 甚至上传到 HDFS。

关于用于大图像处理的 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37993856/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com