gpt4 book ai didi

hadoop - 如何跳过hadoop map-reduce中的坏记录

转载 作者:可可西里 更新时间:2023-11-01 16:23:58 27 4
gpt4 key购买 nike

我是 hadoop 的新手,谁能给我一个简单的程序,告诉我如何跳过 hadoop map/reduce 中的错误记录?

提前致谢

最佳答案

由于您是根据字段的缺失来过滤记录,所以这是适合您的 Mapper 实现的逻辑。 Java API 映射器可能看起来像这样:

public class FilteringMapper extends Mapper<LongWritable, Text, LongWritable, Text>{

private static final Logger _logger = Logger.getLogger(FilteringMapper.class);

protected void map(LongWritable key, Text value, Context context) {

if(recordIsBad(value))
_logger.info(<log record data you care about>);
else
context.write(key, value);

}

private boolean recordIsBad(Text record){
//return true if record is bad by your standards
}

}

此映射器只会根据您的标准进行过滤。如果您需要在 Mapper 中进一步转换数据,这很容易添加。

关于hadoop - 如何跳过hadoop map-reduce中的坏记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18740573/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com