gpt4 book ai didi

hadoop - Pig 在空集中生成结果

转载 作者:可可西里 更新时间:2023-11-01 15:38:09 24 4
gpt4 key购买 nike

我正在编写一个相当基本的 Pig Latin 脚本,但在执行 GENERATE 时遇到了问题。在 GENERATE 之前,转储显示数据与我预期的一样。但是,一旦我执行了 GENERATE,结果就是一个空集。根据 Pig Latin 引用手册,这似乎是正确的。当脚本运行时,我没有收到任何错误(它报告成功。)如果我在 LOAD 期间对字段使用名称或位置符号,则会发生这种情况。

我的脚本:

B = LOAD 'data';
DUMP B;
C = FOREACH B GENERATE (int)$2, (int)$3, (int)$4;
DESCRIBE C;
DUMP C;

这是输出:

(2014-01-26 08:14:21,672,1,0,1,55,...)
(2014-01-26 08:14:23,654,1,1,0,55,...)

C: {f1: int,f2: int,f3: int}

(,,)
(,,)

为什么 DUMP C 的输出不产生 (1,0,1), (1,1,0) ?

最佳答案

您的数据文件以逗号分隔。默认情况下,加载函数将解析制表符分隔的记录。您可以使用 PigStorage 加载器读取字符分隔的记录:

B = LOAD 'data' USING PigStorage(',');

关于hadoop - Pig 在空集中生成结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22180599/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com