java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit-6ren

java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit

转载作者：可可西里更新时间：2023-11-01 16:12:59

26

4

我使用自定义 InputFormat 和 RecordReader 创建了自定义 loadFunc。每当 InputFormat 返回多个输入拆分时，PigSplit 始终仅包含一个输入拆分并且仅使用一个映射器。

实现太大，无法在此处发布，但是否有任何明显的原因可能导致这种情况发生？

编辑:我正在使用 pig 0.13 并且通过添加一些日志记录我发现Loadfunc 创建的 InputFormat 返回包含两个输入拆分的列表，然后 PigInputFormat 使用此列表创建 PigSplits.

我仍然找不到 Pig 在哪里省略了这些输入拆分中的一个而只使用了第一个。

这是 PigInputFormat.java ( src ) 第 273 行的代码

 InputFormat inpFormat = loadFunc.getInputFormat();
 List<InputSplit> oneInputSplits = inpFormat.getSplits(
 HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
 List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);

我确保 loadFunc 返回 2 个输入拆分，但不知何故只创建了一个 PigSplit。关于如何解决这个问题的任何线索。

编辑 2:所以我下载了 pig 0.13 的源代码并编译了它并运行了我的脚本，令人惊讶的是它运行良好并且在我这样做时使用了两个拆分，不幸的是我不能在服务器节点上这样做。我注意到创建输入拆分的堆栈跟踪在 cloudera 中的现成编译版本和我编译的下载版本之间是不同的。

cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat 创建 InputSplits，而下载版本使用 org.apache.pig.impl.io。 ReadToEndLoader

我真的对这个感到困惑。

最佳答案

因此，在对此进行调查之后，发现 Pig 版本 <= 0.13 中存在一个错误，该错误假设每个 InputSplit 都应该有一个长度(它总是假设它正在从文件中读取)，因为在我的例子中，CustomInputSplit.getLength 是返回 0，然后 pig 只接受第一个 InputSplit 而留下其他的。解决方法是只返回输入拆分的 getLength 中的任何值。

正如我在问题中提到的，加载 InputSplit 的行为在那之后发生了变化，在这些情况下不需要变通。

关于java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27396881/

26

4

0

文章推荐： hadoop - 运行 PIG 脚本时出错

文章推荐： c++ - 在头文件中声明静态全局函数

文章推荐： c++ - 为什么编译器在定义类似的模板特化时不会报错？

vim 通过快捷方式直接访问路径文件，始终
当我使用路径文件上的快捷方式在文件之间移动时，似乎我不仅仅是在文件之间移动。我使用>转到一个文件，在该文件中我更改光标的位置并执行某些操作，然后按 gf noremap 关于vim 通过快捷方式直
verilog 始终、开始和结束评估
我正在尝试使用 Pong P. Chu 的书来学习 Verilog。我有一个关于如何评估和实现始终 block 的问题。作者代码中的风格让我感到困惑。在此示例中，他编写了一个具有两个输出寄存器“y1
Javascript xmlhttprequest 始终
我正在尝试制作一个聊天应用程序，因此我需要它始终接收服务器信息。因此，当请求完成时，在: http.onreadystatechange=function(){ 我再次调用该函数，因此: reques
verilog - Verilog 始终@* 敏感度列表中包含哪些内容？
当您在 always block 敏感度列表中使用通配符 @* 时，我对什么被视为输入有点困惑。例如，在下面的示例中，哪些信号被解释为导致 always block 被重新评估的输入？据我了解，cl
c++ - 硬件断点 EXCEPTION_SINGLE_STEP 始终
我有一个充当调试器的程序。我为线程设置了一个 hw bp，将 dr0 设置为我希望 bp 所在的地址，将 dr7 设置为 1，因为我希望 bp 在每次执行该地址时生成一个事件。它有效，但现在的问题是
bash - 如何以管理员身份运行 Git Bash(始终)
如何每次都以管理员身份在 Windows 上运行 git bash。操作系统 - Windows 10 家庭版 64 位最佳答案我在 Google 上找到了这个结果: 将 Git Bash 设置
C 套接字双栈 ss_family 始终 IPv6
使用 accept() 时或 getpeername() , sockaddr_storage总是有 ss_family=AF_INET6 : struct sockaddr_storage addr
javascript - Cordova:始终 deviceready 尚未触发
我在 Cordova 方面还有另一个问题。我想在 Cordova 7.1.0 中使用插件“cordova.custom.plugins.exitapp”和“cordova-plugins-printe
始终 block 中的 Veriloggenerate/genvar
我试图让模块通过 ISE 12.4 中的语法检查，但它给了我一个我不明白的错误。首先是代码片段: parameter ROWBITS = 4; reg [ROWBITS-1:0] temp; genv
ios - iOS cordova允许“始终”访问位置
我正在使用Cordova开发适用于iOS的应用程序，其中包括地理位置功能(我使用官方插件https://github.com/apache/cordova-plugin-geolocation)。我在
始终 block 的灵敏度列表中的 Verilog 多个信号变化
我想知道是否有可能只在敏感列表中的多个信号一起变化时才执行 always block 。例如，假设我有一个信号“in”和另一个“posedge clk”。我希望在两个信号都发生变化时执行 alway
java - 游标.getCount 始终 = 0
我需要实现一种算法来访问数据库来检查最后一个元素，以便计算新的元素。当然，第一次这是不可能的，因为数据库是空的，我得到 IndexOutOfBoundsException) index 0 reque
javascript - 使用 jQuery 具有相同高度的两个元素 - 始终
我正在利用我在网上找到的画廊系统，根据鼠标图像的接近程度，它会按比例增长。链接:Gallery 好吧，我调整了代码以响应(如您所见正在 build 中)并且没有明显的问题。我的问题在更改分辨率时开始
.net - 使 Windows 应用程序始终位于其他窗口之上并处于焦点位置 - 始终
我正在创建一个 kiosk 应用程序，我想确保它无论如何始终位于其他 Windows 应用程序和 Windows 任务栏之上。我已经阻止了 Windows 键盘命令(alt-tab 等)，但仍有可能
javascript - 容器组件是否应该*始终*连接到 Redux？
我即将开始一个新的 React 项目，并尝试利用我以前的知识来创建一些关于我如何构建应用程序的规则。有些事情我认为是真的: Redux 保存整个应用程序的“主要”数据如果需要跨应用程序共享，Red
visual-studio-code - 是否可以将集成终端*始终*放在右侧？
当你打开 VS Code 时，终端默认是在底部打开的。您可以单击该图标将其向右移动。我想知道是否有办法将右侧打开设置为默认值。谢谢。最佳答案是的 - 在 v1.20 中引入了设置 workb
python - 修改 `objects` 以*始终*返回对象的子集？
我有一个Events表，其中包含各种类型的事件。我只关心其中一种类型。因此，我编写的每个查询都以开头 Events.objects.filter(event_type="the_type").\
swift - 计时器未触发(timeInterval 始终 == 0.0)
我在单例中创建了一个Timer，并且我一直在努力解决为什么Timer没有触发。我查看了这里的帖子，但没有找到我认为可以直接回答我的问题的帖子。 class ConnectionStateMonitor
ios - prepareForSegue 传递索引 0 的值...始终
我在 TableViewController 中显示了一组项目。它们在 TVC 中正确显示。下面的代码会继续，但它只会继续到我的 MKMapItem 数组的 indexPath 0，而不是被单击的单元
ios - 应用内购买错误，始终 myProduct 为 0
我的 VC 是这样的: var coins = 50 // coins override func viewDidLoad() { super.viewDidLoad() if(SKP

首页

博学

6Ren·AI

商城

java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit