gpt4 book ai didi

hadoop - AWS 上的 EMR 与 EC2/Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:18:48 25 4
gpt4 key购买 nike

我知道 EC2 比 EMR 更灵活,但工作量更大。然而,就成本而言,如果使用 EC2,它可能需要将 EBS 卷附加到 EC2 实例,而 AWS 只是从 S3 流式传输数据。因此,在 AWS 计算器上计算数字,即使对于 EMR,也必须为 EC2 付费,EMR 变得比 EC2 便宜了??我在这里错了吗?当然,带有 EBS 的 EC2 可能更快,但它值得付出代价吗?

谢谢,马特

最佳答案

EMR 可以为您做很多在 EC2 上的标准 Hadoop 上做不到的事情。一些特别重要的包括

  • 将 Hadoop 日志从您的机器复制到 S3。这对于集群关闭后调试错误非常有用。
  • 运行多个 MapReduce、Pig 或 Hive 作业的作业流
  • 根据您选择的硬件大小设置合理的配置默认值
  • 访问 spot 实例以获得更便宜的计算
  • 能够动态调整集群的大小

您还会发现 EMR S3 文件系统比 Apache Hadoop 打包的标准文件系统更快、更可靠。它支持分段上传,并且流直接写入 S3 而不是先缓冲到磁盘。有关更多信息,请参阅 Tip #5

此外,如果您决定直接使用 EC2,我建议您对节点使用实例存储而不是 EBS。真的没有理由为 Hadoop 支付 EBS 的额外费用;您会注意到 EMR 集群也都在实例存储节点上运行。

关于hadoop - AWS 上的 EMR 与 EC2/Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19129440/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com