gpt4 book ai didi

java - Hadoop 字数统计

转载 作者:可可西里 更新时间:2023-11-01 14:52:22 24 4
gpt4 key购买 nike

对于Hadoop中的单词计数示例,在map函数中,它将单词和一个作为中间结果写入文件,并使用reduce进行求和。为什么不在mapper函数中使用一个hashmap,key是word,value是count,如果一个word在1个file spit中出现不止一次,这个word的值会被加上。在映射器函数的最后,写出结果。

这样比原来的设计(不使用combiner)效率更高,虽然使用了combiner,效率应该是相等的。

有什么建议吗?

最佳答案

是的,你也可以使用 hashmap。但在设计解决方案时,您需要考虑最坏的情况。

通常, block 的大小为 128 MB,并考虑有小词(就词长而言)没有或很少重复。在这种情况下,您将有很多词,因此没有。 HashMap 中的条目将增加,消耗更多的内存。您需要考虑到可能有许多不同的作业在同一个数据节点上运行,因此这个 HashMap 消耗更多的 RAM 最终也会减慢其他作业的速度。此外,当 HashMap 的大小增加时,它必须执行 Rehashing,这会为您的作业执行增加更多时间。

关于java - Hadoop 字数统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39881764/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com