- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我使用自定义 InputFormat
和 RecordReader
创建了自定义 loadFunc。每当 InputFormat
返回多个输入拆分时,PigSplit
始终仅包含一个输入拆分并且仅使用一个映射器。
实现太大,无法在此处发布,但是否有任何明显的原因可能导致这种情况发生?
编辑:我正在使用 pig 0.13
并且通过添加一些日志记录我发现Loadfunc
创建的 InputFormat
返回包含两个输入拆分的列表,然后 PigInputFormat
使用此列表创建 PigSplits
.
我仍然找不到 Pig 在哪里省略了这些输入拆分中的一个而只使用了第一个。
这是 PigInputFormat.java ( src ) 第 273 行的代码
InputFormat inpFormat = loadFunc.getInputFormat();
List<InputSplit> oneInputSplits = inpFormat.getSplits(
HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);
我确保 loadFunc 返回 2 个输入拆分,但不知何故只创建了一个 PigSplit。关于如何解决这个问题的任何线索。
编辑 2:所以我下载了 pig 0.13 的源代码并编译了它并运行了我的脚本,令人惊讶的是它运行良好并且在我这样做时使用了两个拆分,不幸的是我不能在服务器节点上这样做。我注意到创建输入拆分的堆栈跟踪在 cloudera 中的现成编译版本和我编译的下载版本之间是不同的。
cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat
创建 InputSplits,而下载版本使用 org.apache.pig.impl.io。 ReadToEndLoader
我真的对这个感到困惑。
最佳答案
因此,在对此进行调查之后,发现 Pig 版本 <= 0.13 中存在一个错误,该错误假设每个 InputSplit 都应该有一个长度(它总是假设它正在从文件中读取),因为在我的例子中,CustomInputSplit.getLength 是返回 0,然后 pig 只接受第一个 InputSplit 而留下其他的。解决方法是只返回输入拆分的 getLength 中的任何值。
正如我在问题中提到的,加载 InputSplit 的行为在那之后发生了变化,在这些情况下不需要变通。
关于java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27396881/
我刚刚开始学习 Mapreduce 并且有一些我想回答的问题。开始: 1)案例1:FileInputFormat作为输入格式。具有多个要处理的文件的目录是输入路径。如果我有 n 个文件,所有文件小于
在 hadoop 中,我想将一个文件(几乎)平均分配给每个映射器。该文件很大,我想使用在作业开始时定义的特定数量的映射器。现在我已经自定义了输入拆分,但我想确保如果我将文件拆分为两个(或多个拆分)我不
我正在尝试深入了解 map reduce 架构。我正在咨询这个http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop
我正在做一项 Hadoop 工作,对一个或多个可能非常大的 PGM 文件进行卷积。每个映射器将处理来自其中一个文件的一定数量的行,并且缩减器将文件重新组合在一起。但是,每个映射器都需要在其进行卷积的上
据我所知,在将文件复制到 HDFS 时进行文件拆分和在文件上为映射器输入进行输入拆分是完全两种不同的方法。 这是我的问题-- 假设我的 File1 大小是 128MB,它被分成两个 block 并存储
我有一个 100 TB 的文本文件,它有多行记录。而且我们没有给出每条记录占用多少行。一个记录可以是 5 行,另一个可以是 6 行,另一个可以是 4 行。不确定每条记录的行大小是否不同。 所以我不能使
以下是我对 InputSplits 及其与映射器的交互的理解...如果我在某处有误,请纠正我... InputFormat 生成 InputSplits,并为每个 inputsplit 生成一个映射任
我了解到,在 Hadoop 中,大输入文件拆分为小文件,并通过映射函数在不同的节点中进行处理。我还了解到我们可以自定义 InputSplit。我想知道的是 InputSplit 是否可以进行以下类型的
假设存储在 HDFS 中时, block 大小是默认的 64MB。现在我将 InputSplit 大小更改为 128MB。 其中一个数据节点在本地只存储了 1 个信息 block 。 JobTrack
让我们考虑一个生成 1000 个 map task 的 MapReduce 作业。区 block 大小:128MB最小拆分大小:1MB最大拆分大小:256MB block 大小似乎是限制值。我们能
我使用的是 Spark 1.2.1、Hbase 0.98.10 和 Hadoop 2.6.0。在从 hbase 检索数据时出现空点异常。 在下面找到堆栈跟踪。 [sparkDriver-akka.ac
如果我有一个包含 1000 行的数据文件......并且我在我的字数统计程序的 map 方法中使用了 TextInputFormat。因此,数据文件中的每一行都将被视为一个拆分。 RecordRead
我在hadoop上写一个项目。我有一个一维字符串数组。它的名称是“words”。 想要将其发送到 reducer ,但出现此错误: Exception in thread "main" java.la
我正在使用 hadoop-2.4.0,所有默认配置如下: FileInputFormat.setInputPaths(job, new Path("in")); //10mb file; just
我使用自定义 InputFormat 和 RecordReader 创建了自定义 loadFunc。每当 InputFormat 返回多个输入拆分时,PigSplit 始终仅包含一个输入拆分并且仅使用
我得到一个 NullPointerException启动 MapReduce 时工作。它被 SerializationFactory 抛出的 getSerializer()方法。我正在使用自定义 In
我想用 scala 读取 Hbase by Spark,但是我得到了错误: 线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError 中的异常:o
我是一名优秀的程序员,十分优秀!