gpt4 book ai didi

hadoop - 在Hadoop中找到最大值

转载 作者:行者123 更新时间:2023-12-02 20:24:58 27 4
gpt4 key购买 nike

我有以下任务:

存储文件的应用程序使用户能够添加和删除文件。当发生此类事件时,我将附加到hdfs中的文件,添加文件时的以下记录:

用户标识image-uuid size_in_bytes

和以下文件被删除时

-userid image-uuid size_in_bytes

在缩减器中计算平均值时,我将不得不减去已删除文件的大小,并减少总数以找到没有该文件的平均值。

删除是偶发事件。

如何计算整个数据集的平均大小和最大大小?

最佳答案

我刚刚发现我还有一个hadoop作业,可以找到每个userID的最大值。因此,我将遵循分而治之的方法。首先找到每个用户的最大值,然后在输出上运行较小的作业以找到总的最大值。

关于hadoop - 在Hadoop中找到最大值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57441812/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com