gpt4 book ai didi

python-3.x - 对于 Spark,EMR 是否仍然比 EC2 有任何优势?

转载 作者:行者123 更新时间:2023-12-03 17:56:39 32 4
gpt4 key购买 nike

我知道以前有人问过这个问题,但这些答案似乎都围绕着 Hadoop。对于 Spark,您真的不需要所有额外的 Hadoop 垃圾。使用 spark-ec2 脚本(可通过 GitHub 获取 2.0),您的环境已为 Spark 做好准备。在 EC2 上使用 EMR 运行时,是否有任何引人注目的用例(除了非常出色的 boto3 sdk 接口(interface))?

最佳答案

恕我直言,这个问题归结为托管服务的值(value)。

在本地模式下独立运行 Spark 只需要获取最新的 Spark,解压它,cd 到它的 bin 路径,然后运行 ​​spark-submit,等等

但是,创建以集群模式运行的多节点集群需要您实际进行真正的网络连接、配置、调优等。这意味着您必须处理 IAM 角色、安全组,并且还有子网注意事项在您的 VPC 中。

当您使用 EMR 时,您将获得一个交 key 集群,您可以在其中一键安装许多流行的应用程序(包括 spark),并且所有安全组都已正确配置以用于节点之间的网络通信,您已经进行了日志记录已经设置并指向 S3,你有简单的 SSH 指令,你有一个已经安装的用于隧道和查看各种 UI 的设备,你有 IO 级别、节点级别和作业提交的视觉使用指标级别,您还可以创建和运行 Steps -- 这些作业可以在驱动节点的命令行中运行,也可以作为利用整个集群的 Spark 应用程序运行。然后,最重要的是,您可以导出整个集群,包括步骤,并通过 DataPipeline 将 CLI 脚本复制粘贴到重复作业中,并在 60 秒内创建一个 ETL 管道。

如果您自己在 EC2 中构建它,您将不会得到任何这些。我知道我会选择哪一个……EMR。但这就是我。

关于python-3.x - 对于 Spark,EMR 是否仍然比 EC2 有任何优势?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40410975/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com