gpt4 book ai didi

java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit

转载 作者:可可西里 更新时间:2023-11-01 16:12:59 26 4
gpt4 key购买 nike

我使用自定义 InputFormatRecordReader 创建了自定义 loadFunc。每当 InputFormat 返回多个输入拆分时,PigSplit 始终仅包含一个输入拆分并且仅使用一个映射器。

实现太大,无法在此处发布,但是否有任何明显的原因可能导致这种情况发生?

编辑:我正在使用 pig 0.13 并且通过添加一些日志记录我发现Loadfunc 创建的 InputFormat 返回包含两个输入拆分的列表,然后 PigInputFormat 使用此列表创建 PigSplits.

我仍然找不到 Pig 在哪里省略了这些输入拆分中的一个而只使用了第一个。

这是 PigInputFormat.java ( src ) 第 273 行的代码

 InputFormat inpFormat = loadFunc.getInputFormat();
List<InputSplit> oneInputSplits = inpFormat.getSplits(
HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);

我确保 loadFunc 返回 2 个输入拆分,但不知何故只创建了一个 PigSplit。关于如何解决这个问题的任何线索。

编辑 2:所以我下载了 pig 0.13 的源代码并编译了它并运行了我的脚本,令人惊讶的是它运行良好并且在我这样做时使用了两个拆分,不幸的是我不能在服务器节点上这样做。我注意到创建输入拆分的堆栈跟踪在 cloudera 中的现成编译版本和我编译的下载版本之间是不同的。

cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat 创建 InputSplits,而下载版本使用 org.apache.pig.impl.io。 ReadToEndLoader

我真的对这个感到困惑。

最佳答案

因此,在对此进行调查之后,发现 Pig 版本 <= 0.13 中存在一个错误,该错误假设每个 InputSplit 都应该有一个长度(它总是假设它正在从文件中读取),因为在我的例子中,CustomInputSplit.getLength 是返回 0,然后 pig 只接受第一个 InputSplit 而留下其他的。解决方法是只返回输入拆分的 getLength 中的任何值。

正如我在问题中提到的,加载 InputSplit 的行为在那之后发生了变化,在这些情况下不需要变通。

关于java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27396881/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com