gpt4 book ai didi

java - 如何获取Mapreduce作业的Mapper中数据分片的文件路径?

转载 作者:行者123 更新时间:2023-11-30 05:43:10 26 4
gpt4 key购买 nike

我有一个mapreduce作业,其中文件输入路径是:/basedirectory/*/*.txt

在基本目录中,我有不同的子文件夹(CaseA、CaseB 等),每个子文件夹都包含 hdfs 文本文件。

在作业的映射阶段,我想找出数据分片的确切来源(例如 CaseA)。我怎样才能实现这一目标?

我对具有超过 1 个输入 hbase 表的 mapreduce 作业做了类似的操作,其中我使用 context.getInputSplit().getTableName() 来查找实际的表名称,但不确定如何处理 HDFS 输入文件。

最佳答案

您可以使用context.getInputSplit()(其中contextmapper.context)来分割输入,然后使用inputSplit 上的 getPath() 方法返回文件路径。

关于java - 如何获取Mapreduce作业的Mapper中数据分片的文件路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55318918/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com