gpt4 book ai didi

hadoop - 在Hadoop群集上解决字数统计是否有意义?

转载 作者:行者123 更新时间:2023-12-02 22:00:37 25 4
gpt4 key购买 nike

Hadoop MapReduce上的许多教程都是从字数统计示例开始的。但是,我记得在我的分布式计算类中(那是在Hadoop诞生之前),只有当子任务的粒度很细时,分布式计算才可以加快速度,这意味着计算时间超过了通信时间。在“字数统计”中,时间复杂度(如果使用哈希表并假定字长为常数限制)是线性的。因此,似乎没有理由为将输入文件传输到HDFS以及随后的“排序和混洗”阶段付出代价。我想念什么吗?

最佳答案

不清楚您所建议的替代方法是什么,但是WordCount就像用您喜欢的语言打印Hello World一样。

它教会了您一些基本概念,它并不是要成为使用MapReduce的主要示例,也不是成为如何优化Hadoop集群的主要示例(存储行斜线文本进行分析并不是Hadoop的亮点)。

关于hadoop - 在Hadoop群集上解决字数统计是否有意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54089254/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com