gpt4 book ai didi

hadoop - Map Reduce中的大数据文件处理

转载 作者:行者123 更新时间:2023-12-02 20:09:00 25 4
gpt4 key购买 nike

我正在尝试了解Map Reduce的总体工作方式。所以我所知道的是,有一些Mappers在多台计算机上并行运行,并创建一个结果集,然后由Reducers在多台计算机上并行运行的结果集用于创建所需的数据集。

我的问题是:

  • 一项作业是否在固定数量的文件上运行?因此,在开始时
    一个作业,有固定数量的文件需要处理
    处理并产生一些数据。
  • 如果否,那么我们如何处理
    可能来自不同来源的数据流
    Twitter的提要等?
  • 如果是,请解释如何找到Map Reduce
    当所有的映射者都完成时, reduce task 应该
    开始,因为可能没有引用点。
  • 最佳答案

    答案:

  • 是的。基本上,作业开始,处理文件并结束。永远不会运行。
  • 流处理可以由Storm或类似的设备处理
    技术,但不是Hadoop本身,因为它是一个批处理系统。您还可以查找Hadoop YarnStorm can work together的方式。
  • 应该是一个引用点,因为tasktracker在
    不同的节点发送正在运行的不同任务(Map任务/ Reduce任务)的状态信息
    定期发送给工作跟踪器,该跟踪器负责协调工作运行。
  • 关于hadoop - Map Reduce中的大数据文件处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19129518/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com