EC2 上的 Hadoop 与 ElasticMapReduce/S3-6ren

EC2 上的 Hadoop 与 ElasticMapReduce/S3

转载作者：可可西里更新时间：2023-11-01 14:41:52

27

4

我使用 ElasticMapReduce 有一段时间了。这很方便，但我无法运行 HBase，因为 Hadoop 集群只是暂时可用(我在 HBase and Hadoop 上问过一些相关的问题)。

所以我想尝试在一组 EC2 机器上安装 Hadoop。我知道 Hadoop 有一些与 EC2 相关的目录 - src/contrib/ec2。看起来只需键入命令即可启动 Hadoop 集群，我可以登录到主节点以运行作业等。在尝试这个之前，我想知道任何使用过这个的人的陷阱。谢谢!

最佳答案

事实上，在亚马逊上使用 hadoop 有两种选择——配置您自己的集群或使用 EMR。与此决定正交，您可以使用 HDFS 或 S3 作为文件系统。这不是短篇小说，但我会尝试强调所有这些选择的一些优点/缺点。
如果您需要每天运行一个/几个作业并且不需要一直使用 hadoop 集群，则可以使用 EMR。在这种情况下，您将数据放入 s3 并可以完全编写该过程的脚本。主要缺点 - 定制、使用第三方库等并不容易。在这种情况下，您还可以节省安装集群的时间。如果你想调整 hadoop - 你应该安装你自己的集群。
当你的数据已经在 s3 中或者你需要在处理后存储它时 - s3 是一个不错的选择。同时 - 你可能会获得比使用 HDFS 更低的性能。必须说明的是，亚马逊实例的本地存储空间非常小——因此它变得非常昂贵，您应该保持集群运行(并为此付费)以保留此存储空间。
我会告诉你，如果你确实需要 HDFS 及其所有吞吐量，你确实需要在自己的硬件上拥有自己的集群。当你在 Amazon 上工作时——使用 S3 作为你的文件系统是最实用的。

关于EC2 上的 Hadoop 与 ElasticMapReduce/S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9938643/

27

4

0

文章推荐： windows - rhc 设置和 openshift 问题

文章推荐： c++ - 来自 Win32 的 Cortana

文章推荐： python - 如何检查python中的指针是否为空？

文章推荐： sql - 查询Windows版本

hadoop - ElasticMapReduce:每种EC2类型的映射器/缩减器的数量
我想知道，根据您选择的EC2服务器的实例类型，映射器和简化器的数量是否会有所不同？我发现大型实例正在使用3个映射器和1个reducer。其他所有类型(例如xLarge实例)是否相同？我知道我可以通过引
amazon-ec2 - boto ElasticMapReduce throttle 和速率限制
我通过 boto API 遇到过几次来自 Amazon EMR 的速率限制，如下所示: boto.exception.EmrResponseError: EmrResponseError: 400 B
hadoop - Amazon ElasticMapReduce(EMR) 控制拆分大小/映射器数量
如何更改此配置？对于我的应用程序，64/128 的拆分大小对我来说太多了，例如，我希望拆分大小为 16 mb。我该怎么做？最佳答案您可以通过设置 fs.s3n.block.size 来更改默认
EC2 上的 Hadoop 与 ElasticMapReduce/S3
我使用 ElasticMapReduce 有一段时间了。这很方便，但我无法运行 HBase，因为 Hadoop 集群只是暂时可用(我在 HBase and Hadoop 上问过一些相关的问题)。所以
amazon-web-services - elasticmapreduce :RunJobFlow in AWS? 需要哪个策略
我正在使用 AWS DataPipeline 运行创建 EMR 集群的 aws-cli 命令，但在运行该命令时出现以下错误: user ... is not authorized to perform
amazon-s3 - 访问s3n中的文件://elasticmapreduce/samples/wordcount/input
如何访问 S3 的以下文件夹中由其他人拥有的文件 s3n://elasticmapreduce/samples/wordcount/input 最佳答案 s3n://elasticmapreduce/
java - 配置单元/ElasticMapreduce : How bring JsonSerDe to ignore malformed JSON?
我对 Hive 和 ElasticMapreduce 还很陌生，目前我遇到了一个特定的问题。在包含数十亿行 JSON 对象的表上运行 Hive 语句时，只要其中一行是无效的/格式错误的 JSON，Ma
apache-flink - 如何在 AWS EMR (ElasticMapReduce) 中监控 Apache Flink？
我目前有 Flink 设置并且有一个在 EMR 上运行的作业，我现在正尝试通过将指标发送到 prometheus 来添加监控。我遇到了在 EMR 上运行 Flink 的问题。我正在使用 Terraf
amazon-web-services - AWS 云形成错误 : ElasticMapReduce Cluster failed to stabilize
尽管我的研究告诉我这是亚马逊内部的错误，但我一直收到此错误。我不知道从哪里开始处理这个错误，或者是否有什么我可以做的来帮助它。事实上，我一直收到它，这让我认为我的脚本有问题。这是: { "Des

首页

博学

6Ren·AI

商城

EC2 上的 Hadoop 与 ElasticMapReduce/S3