gpt4 book ai didi

c++ - 使用自定义 AMI 运行 Amazon EMR?

转载 作者:可可西里 更新时间:2023-11-01 14:18:47 24 4
gpt4 key购买 nike

我需要在 Amazon 上运行自定义 C++ 作业作为 Map Reduce,并计划为此使用 Hadoop 流。 C++ 映射器可执行文件依赖于数十个自定义库,其中一些构建起来非常耗时。

我希望 EMR 能够支持自定义 AMI(已经构建了一个)。然而,仔细查看文档后,似乎只能在预定义图像上运行 EMR:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-cli-commands.html .

我错过了什么吗?如果确实只支持预定义的 AMI,那么让它运行的最佳选择是什么?显然,可执行文件在 s3 上,但我真的可以将它捆绑起来,以便它完全不依赖共享库吗?

谢谢。

最佳答案

您是对的,由于 Hadoop 集群节点上需要许多软件工具和配置,EMR 上只允许使用 Amazon 提供的 AMI。 http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-ami.html

您可以使用标准引导技术来安装在集群上运行所需的任何其他软件。参见 http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html了解有关引导操作的更多信息。

回到您的用例:为什么在您的用例中启动需要这么长时间?因为有很多包?因为您是从源代码编译它们?

在后一种情况下,构建您的 .deb 包并从自定义存储库安装它们以加快引导过程可能是值得的。

如果只是因为你有很多包要安装,恐怕今天没有明显的解决办法。我可以考虑在引导过程中创建和附加 EBS 快照和卷 - 但这的可行性实际上取决于您的用例。

关于c++ - 使用自定义 AMI 运行 Amazon EMR?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20982439/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com