gpt4 book ai didi

hadoop - 输入分割是否被复制到 JobTracker 文件系统?

转载 作者:可可西里 更新时间:2023-11-01 16:58:55 25 4
gpt4 key购买 nike

如 Hadoop 权威指南中所述,在提交 MR 作业期间,会计算输入拆分,然后将其复制到 JobTracker 的文件系统。但是,如果数据真的很大,这对我来说没有意义。这个副本会花费很多时间,而且,如果运行JobTracker的节点没有足够的空间,这个副本会怎么样?请阐明这个处理框架。提前致谢。

最佳答案

InputSplits 只是 block 边界的逻辑抽象。一般一个InputSplit包含以下信息:

  • 文件路径
  • 区 block 起始位置
  • 要处理的文件中的字节数
  • 包含正在处理的文件 block 的主机列表

对于给定的工作,它是 JobClient 的责任通过调用内部调用 InputFormatgetSplits 方法,一旦计算出此信息,就会将其复制到 HDFS,JobTracker 将从中读取并根据数据局部性安排映射器。

如果您对拆分本身的计算方式感兴趣,请查看 FileInputFormat.getSplits 方法。

关于hadoop - 输入分割是否被复制到 JobTracker 文件系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26871334/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com