gpt4 book ai didi

hadoop - 更新hadoop mapreduce中的全局变量

转载 作者:行者123 更新时间:2023-12-02 21:42:27 24 4
gpt4 key购买 nike

我的要求是在MR作业输出中附加每个输入记录的计数。为此,我需要一个全局计数器,所有映射器/归约器都可以使用它来读取该计数器并将其递增1。以后的映射器/归约器应获取该计数器的最新值。如何实现呢?

最佳答案

如前所述,由于要求将行号添加到巨大的文本文件中,因此我使用了以下策略。

案例1

使用一个单一化简器的Map Reduce(如注释中所述)

案例2

我用 hive 。

创建一个只有一列的表

create table t1(value string);

将文件加载到表中;
load data inpath 'hdfs file path' into table t1;

使用 hive 贡献者 jar 触发UDF
add jar <hivehomedirectory>/lib/hive-contrib-version.jar;
create temporary function row_num as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

将查询输出重定向到hdfs文件
insert overwrite directory 'a hdfs dir' select row_num(),value from t1;

这为我创建了一个文件,其中包含2行,行号和行内容。

关于hadoop - 更新hadoop mapreduce中的全局变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27703823/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com