gpt4 book ai didi

hadoop - 集群的映射器估计

转载 作者:可可西里 更新时间:2023-11-01 16:40:40 25 4
gpt4 key购买 nike

需要对 Hadoop 集群中特定作业的映射器估计进行一些说明。根据我的理解,映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在 HDFS 中的输入数据进行处理,情况就是如此。在这里,我需要澄清有关由 SQOOP 作业触发的映射器和缩减器。多氟溴联苯..

  1. 如何根据 RAM 或输入拆分/ block 估算专用集群的映射器计数?(一般)

  2. 如何根据输入大小估算用于将数据从 RDBMS 检索到 HDFS 的 sqoop 作业的映射器计数?(基于 Sqoop)

  3. 什么是核心 CPU,它如何影响可以并行运行的映射器的数量?(一般)

谢谢。

最佳答案

  1. 如何基于 RAM 或基于输入拆分/ block 来估计专用集群的映射器计数?(一般)

    你是对的。 映射器的数量通常基于输入中 DFS block 的数量。

  2. 如何根据输入大小为从 RDBMS 检索数据到 HDFS 的 sqoop 作业估算映射器计数?(基于 Sqoop)

    默认情况下,Sqoop 将使用四个并行任务来导入/导出数据。

    您可以使用 -m <number of mappers> 更改它选项。 引用:Sqoop parallelism

  3. 核心 CPU 的含义是什么以及它如何影响可以并行运行的映射器的数量?(一般)

    CPU cores是处理单元。用简单的话来说“核心越多越好。”,也就是说,如果我们有更多的核心,它就可以更并行地处理。

    示例:如果您有 4 个核心,则 4 个映射器可以并行运行。(理论上!)

关于hadoop - 集群的映射器估计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41373574/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com