gpt4 book ai didi

python - Mapreduce Job 查找 python 中的词频计数

转载 作者:太空宇宙 更新时间:2023-11-03 13:59:11 26 4
gpt4 key购买 nike

我有一个很大的单词数据集,我必须计算单词频率的计数。更具体地说,假设我有单词(be、to、the、the、now、now、now、see、see、see)。词频为

是:1,至:1、的:2,现在:3,参见:3

我想计算频率计数,所以我的输出是:

1:2

2:1

3:2

这可以在一个 MapReduce 过程中完成吗?还是我需要创建 1 个 MapReduce 作业来计算频率,并创建另一个 MapReduce 作业来计算计数?

最佳答案

正如您所预料的,我相信您需要两个 mapreduce 程序。

  • 计算字数

这将是正常的wordcount程序。一个很好的教程是here .

  • 计算频率。

它与另一个wordcount程序非常相似。步骤是:

  1. 使用 : 分割输入行。例如在 : 上拆分 now: 3 以获得 now3 (修剪后的)元素。这类似于在字数统计中按空格分割每个单词。

  2. 将数字部分写入上下文,并将值作为 1 (作为计数 1),即步骤 1 中的 3 应作为 Key 输出 -> 3,值 -> 1 。相当于输出一个wordcount中计数为1word

  3. 在reducer 中,仅聚合每个键的计数。它类似于 wordcount 中的聚合计数。

关于python - Mapreduce Job 查找 python 中的词频计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49380043/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com