gpt4 book ai didi

text - map 减少每个文本文件的实现

转载 作者:可可西里 更新时间:2023-11-01 16:17:54 24 4
gpt4 key购买 nike

我需要计算每个文档中每个单词的词频,所以我想为每个文本文件实现 map reduce 函数。如何为每个文本文件实现 map() 和 reduce()?

Map-Reduce 中的另一个问题是 Map-Reduce 将reduce 的输出写入单个文件/user/output/part-0000 而project 需要将每个文件处理后的输出写入不同的文本文件,如何实现?

最佳答案

按照下面提到的步骤:

  1. 在作业文件中计算输入文件的数量
  2. 设置numreducers等于输入文件的数量
  3. 将数字 0 到 n-1 分配给文件并将此信息传递给分布式缓存
  4. 在映射器的 setup() 方法中获取文件名并检索该文件的分配编号并将其分配给某个静态变量
  5. Partitioner返回这个静态变量

Reducer 将发出“n”个文件。

关于text - map 减少每个文本文件的实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15920830/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com