hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？-6ren

hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？

转载作者：可可西里更新时间：2023-11-01 14:40:10

25

4

我最近在学习 Amazon EMR，据我所知，EMR 集群让我们选择 3 个节点。

Master，运行 NameNode、Job Tracker 和 Resource manager 等主要 Hadoop 守护进程。
运行 Datanode 和 Tasktracker 守护进程的核心。
只运行 TaskTracker 的任务。

我想问你们为什么 EMR 提供任务节点？ hadoop 建议我们应该在同一个节点上安装 Datanode 守护进程和 Tasktracker 守护进程。亚马逊这样做背后的逻辑是什么？您可以将 S3 中的数据流式传输到核心节点上的 HDFS，在 HDFS 上进行处理，而不是将数据从 HDFS 共享到任务节点，这在这种情况下会增加 IO 开销。因为据我对 hadoop 的了解，TaskTrackers 在 DataNodes 上运行，DataNodes 具有用于该特定任务的数据 block 那么为什么 TaskTrackers 在不同的节点上？

最佳答案

根据 AWS 文档 [1]

The node types in Amazon EMR are as follows:Master node: A node that manages the cluster by running softwarecomponents to coordinate the distribution of data and tasks amongother nodes for processing. The master node tracks the status of tasksand monitors the health of the cluster. Every cluster has a masternode, and it's possible to create a single-node cluster with only themaster node.

Core node: A node with software components that run tasks and store data in the Hadoop Distributed File System (HDFS) on yourcluster. Multi-node clusters have at least one core node.

Task node: A node with software components that only runs tasks and does not store data in HDFS. Task nodes are optional.

根据 AWS 文档 [2]

Task nodes are optional. You can use them to add power to perform parallel computation tasks on data, such as Hadoop MapReduce tasks and Spark executors.

Task nodes don't run the Data Node daemon, nor do they store data in HDFS.

一些用例是:

您可以使用任务节点来处理来自 S3 的流。在这种情况下，网络 IO 不会增加，因为使用的数据不在 HDFS 上。
由于没有运行 HDFS 守护进程，因此可以添加或删除任务节点。因此，任务节点上没有数据。核心节点运行 HDFS 守护进程并不断添加和删除新节点不是一个好的做法。

资源:

[1] https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-overview.html#emr-overview-clusters

[2] https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-master-core-task-nodes.html#emr-plan-task

关于hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41519400/

25

4

0

文章推荐： scala - 使用 scalding 读取多个文件并输出单个文件

文章推荐： .net - 用 .NET 4.5 编写的软件需要什么版本的 .NET 运行时？

文章推荐： java - Java 操作系统的不同图标大小

emr - 只有主节点和任务节点的 AWS EMR
当我确定源数据在 S3 中并且处理的结果将存储在 S3 中时，是否可以使用主节点和一组任务(从属)节点(没有核心节点)构建 AWS EMR。基本上，问题是“当 EMR 将在 S3 中处理数据时，需要
amazon-emr - 如何正确使用 EMR S3DistCp groupBy？
我正在使用 aws .net sdk 向 EMR 运行 s3distcp 作业，以使用 --groupBy arg 连接文件夹中的所有文件。但是无论我尝试过什么“groupBy”arg，它总是失败，或
amazon-emr - EMR Jupyter Notebook 的访问凭证
我刚刚建立了一个内置 Spark、JupyterHub 等的 EMR 集群。我可以通过 http://master_hostname:9443/hub/login 访问 Jupyter Noteboo
java - Hadoop 永远占领 EMR 和分析 EMR
我正在 S3 上运行一个超过 500 个文档的示例 hadoop 作业，在本地运行时需要 <15 分钟才能完成。然而，当我尝试在 EMR 上运行相同的作业时，需要两个多小时，但仍然没有完成缩减步骤，因
emr - EMR 上 Zeppelin 中的 Presto 解释器
是否可以将 Presto 解释器添加到 AWS EMR 4.3 上的 Zeppelin，如果可以，有人可以发布说明吗？我在 EMR 上运行 Presto-Sandbox 和 Zeppelin-Sand
amazon-emr - 如何在 AWS StepFunctions 中将变量传递给 EMR addStep
AWS Stepfunctions 最近添加了 EMR 集成，这很酷，但我找不到将变量从步骤函数传递到 addstep 参数的方法。例如，我想将“$.dayid”变量传递给“Parameters”>“
shell - Amazon EMR:如何在参数中添加带有嵌入式shell脚本的Amazon EMR MapReduce/Hive/Spark步骤？
例如，我有两个Hive作业，其中一个作业的输出用作第二个作业的参数/变量。我可以在终端上成功运行以下命令，以在EMR集群的主节点上获得结果。 [hadoop@ip-10-6-131-223 ~]$ h
r - 亚马逊 EMR : Using R code in Amazon EMR
我有一个非常初学者的问题。我刚刚阅读了一些有关 Amazon EMR 的文档。在我注册之前，我只是想询问一下如何在其中使用 R。我有一个 R 模块，它调用其他几个模块，然后，在它完成运行之前，将几个
python - 从 EMR Spark 连接到 EMR presto - 连接失败
我在从运行 Spark 的 AWS EMR 集群连接到另一个运行 presto 的 AWS EMR 集群时遇到问题。用 python 编写的代码是: jdbcDF = spark.read \
amazon-emr - Amazon EMR - 端口 9443 上缺少来自 EmrManagedMasterSecurityGroup 的入口规则
我正在努力解决这个问题，但无法弄清楚为什么我有一个要部署在 AWS 私有(private)子网中的 EMR 集群。我检查了文档 here . 根据以上内容，我明白了以下几点: 一个。对于我的 EM
amazon-emr - 无法访问 AWS EMR Ganglia 仪表板 - 403 Forbidden
我有一个 EMR 集群 response = emr_client.run_job_flow( Name="Test dashboards", ReleaseLabel='emr-6.
java - EMR 中的多个输入和多个映射器类(EMR 中是否有类似 Hadoop 上的 MultipleInputs 的东西)
我在使用 hadoop 时使用了 MultipleInputs 。因为我有多个映射器分配给不同的输入。我想知道 EMR 是否也支持它。在hadoop中我是这样操作的。这些是我的不同文件的映射器。在这
python - Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群
我是 PySpark 和 EMR 的新手。我试图通过 Jupyter notebook 访问在 EMR 集群上运行的 Spark，但遇到了错误。我正在使用以下代码生成 SparkSession:
amazon-emr - Presto-Glue-EMR 集成 : presto-cli giving NullPointerException
我正在尝试将我的 Glue 目录连接到 EMR 中的 Presto 和 Hive。在 presto-cli 中运行查询时，我收到 NullPointerException 而相同的查询在 hive-c
python - 使用 --pool-emr-job-flows 时，MRJob 无法在 EMR 上启动新作业
我正在使用 MRJob 在 Amazon 的 EMR 上运行一个迭代的 hadoop 程序。当我不使用“--pool-emr-job-flows”选项时，一切正常(但速度很慢)。当我使用这个选项时，
hadoop - 获取 emr-ddb-hadoop.jar 以连接 DynamoDB 和 EMR Spark
我有一个 DynamoDB 表，我需要连接到 EMR Spark SQL 以在该表上运行查询。我得到了带有发布标签 emr-4.6.0 和 Spark 1.6.1 的 EMR Spark Cluste
Python 和 AWS EMR 步骤 : Using os. 系统运行 chmod 等命令在作为 EMR 步骤运行时不起作用
我的团队在 AWS 中工作，我们有 python 脚本，可以将文件从 S3 存储桶移动到 EC2 实例。我想用我们正在使用的脚本作为序言，它在直接从 ec2 实例运行时有效，并且仅在作为 EMR 步骤
apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止
我有 Airflow 作业，它们在 EMR 集群上运行良好。我需要的是，假设我有 4 个 Airflow 作业需要 EMR 集群，假设 20 分钟才能完成任务。为什么我们不能在 DAG 运行时创建一个
hadoop - 在配置 EMR 后，如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR？
我正在 AWS 中创建一个数据管道来运行 Pig 任务。但是我的 Pig 任务需要 EMR 中的附加文件。在创建集群之后和运行 pig tasked 之前，我如何告诉 Data Pipeline 将文
amazon-emr - 在 AWS EMR 上设置 Spark Thrift Server 以建立 JBDC/ODBC 连接
如何在 EMR 上设置 Spark Thrift 服务器？我正在尝试使用 Spark Thrift 服务器与 EMR 建立 JDBC/ODBC 连接。例如直线> !connect jdbc:hive

首页

博学

6Ren·AI

商城

hadoop - Amazon Emr - 当我们拥有核心节点时，任务节点的需求是什么？