gpt4 book ai didi

Hadoop/EMR 任务输出数据并保持总计数

转载 作者:可可西里 更新时间:2023-11-01 16:49:04 28 4
gpt4 key购买 nike

使用 Amazon Elastic MapReduce 完成一项任务后,所有关键结果是否通常会写入不同的文件?假设我有 20k 行的数据记录,但只有 3 个键。我最终得到 6 个文件,其中 3 个为空,3 个包含 key 及其相应数据。如果有区别的话,我正在运行 1 Master 和 2 Core。

我还有第二个问题,我还没有研究过,但也许可以很快得到答案。什么是最好的方法或什么方法可以在所有键之间保持总计数变量?我想使用 MR 作业的总数对数据执行操作。现在我的代码跟踪每个键的计数

添加:当我只使用 1 个 master 时,我得到一个 _SUCCESS 文件和 3 个 part-r 文件。 1 个包含 2 个键,1 个空白,1 个有 1 个键。我对此有任何控制吗?

最佳答案

作为程序参数的一部分,您可以传递 -Dmapreduce.job.reduces 来控制文件数量。默认情况下,EMR 使用等于集群中节点数的缩减器。

关于第二个问题,你想得到每个键的记录总数吗?能举个例子吗?

关于Hadoop/EMR 任务输出数据并保持总计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34322391/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com