gpt4 book ai didi

hadoop - mapReduce和顺序方法

转载 作者:行者123 更新时间:2023-12-02 20:08:34 30 4
gpt4 key购买 nike

我对如何在hadoop中检索数据有些困惑。

  • 是mapReduce旨在从hadoop集群(HDFS)检索数据,还是仅限于聚合。
  • Hadoop支持顺序搜索,比方说Hadoop并行处理数据,遍历每个节点时搜索与处理有何不同?
  • 如果我错了,请纠正我:
    是按顺序读取每个节点的块,但在群集中并行处理许多节点。我的意思是两个作业在两个不同的节点上并行运行,每个作业同时对每个节点的所有相关块进行顺序搜索。
    例如:Node1:块A。块B,块C
    节点2:D块,E块,F块
    我的假设:
    块A->块B->块C || D座,E座,F座

  • ->是连续的
    ||是平行的。
  • 假设我要搜索过去两年中从公司获得最大 yield (现金)的四名员工中的一位。搜索和检索在这里如何工作。
  • 最佳答案

  • MapReduce作业可以从HDFS读取数据。其他数据源也是可能的。
  • 请查看MapReduce tutorial并分析map reduce的工作流程。
  • 它严格取决于输入数据的大小和将在给定节点上并行运行的可用工作程序(映射/归约任务)的数量。如果每个节点有3个工作线程,则可以并行处理所有三个块(分别为A,B,C和D,E,F)。从磁盘顺序读取块本身中的数据。

  • 就示例而言,您的方法可能类似于以下内容:
  • map任务:处理所有员工并在单个数据块中计算员工之间的本地最大福利并输出该最大值(即成对[local_max_benefits, employee_id]
  • reduce任务:从map任务迭代局部最大值,并将全局最大值计算为[local_max_benefits, {employee_id1, ..., employee_idN}]
  • 关于hadoop - mapReduce和顺序方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19548716/

    30 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com