gpt4 book ai didi

java - 使用分布式编程的字符计数

转载 作者:塔克拉玛干 更新时间:2023-11-02 07:51:06 30 4
gpt4 key购买 nike

我有一个巨大的文件(仅包含 ascii 字符),我需要找到出现频率最高的字符。

我的方法:

  1. 拆分文件并将其分发到多个处理节点。
  2. 每个节点都会对字符进行统计,生成一个字符数数组[256]。
  3. 父节点会收到所有节点的count数组,计算出现频率最高的字符。

但我想知道节点是否需要传输整个计数数组来计算最频繁出现的字符?有没有办法减少节点之间传输的已处理数据量。

注意:我是分布式编程的新手,因此尝试熟悉基本技术。

最佳答案

如果让每个节点处理,例如1 MiB 然后 1 KiB 的响应(int 的 256 乘以 4 字节)可以忽略不计。

顺便说一句,看看 , 特别是 . map-reduce 的“hello world”是字数统计——几乎正是您要找的东西。

关于java - 使用分布式编程的字符计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14759641/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com