gpt4 book ai didi

Hadoop MapReduce 获取每个单词的百分比

转载 作者:可可西里 更新时间:2023-11-01 16:49:22 29 4
gpt4 key购买 nike

我正在使用 Hadoop Mapreduce 来获取单词和单词计数信息。除了每个单词的计数,我还需要找到每个单词在文档中显示的百分比。输出是这样的。如果文档只包含三个词“hello”、“world”和“kitty”。结果应该是这样的。

字数百分比

你好 40 0.4

世界 50 0.5

小猫 10 0.1

我可以设置一个TOTAL_KEY来统计所有的单词,问题是每个单词统计返回时,结果会同时返回。将每个单词输出到hdfs时,无法计算当时的百分比。

最佳答案

您可以在 Mapper 中设置一个计数器。

  1. 在您从映射器发出单词时增加一个全局计数器以计算单词总数。
  2. 在你的 reducer 中获取计数器以获得发出的单词总数。
  3. 使用一般方法计算百分比。

关于Hadoop MapReduce 获取每个单词的百分比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34126224/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com