gpt4 book ai didi

hadoop - 为什么映射输出记录和减少 hadoop 计数器中的输入记录不同?

转载 作者:可可西里 更新时间:2023-11-01 15:02:06 24 4
gpt4 key购买 nike

我在 hadoop 中运行一个字数统计工作我的问题是为什么映射输出记录和减少 hadoop 计数器中的输入记录不同?请看下图enter image description here

最佳答案

根据“合并输出记录”计数器,您的作业似乎使用了合并器。这就解释了为什么“减少输入记录”不等于“映射记录”。

通过将 1 亿条记录缩减到数百条,组合器相当高效。

然后您很可能会问为什么“合并输入记录”不等于“映射输出记录”以及为什么“合并输出记录”不等于“记录输入记录”。解释是组合器可以运行多次,这意味着您“实际上”对同一数据进行多次计数(在这里您可以观察到 541 条额外输入记录等于 677 - 136,但不能保证这两个数字将始终匹配)

关于hadoop - 为什么映射输出记录和减少 hadoop 计数器中的输入记录不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37931644/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com