hadoop - 如何用拉丁 pig 按地区分组结果？-6ren

hadoop - 如何用拉丁 pig 按地区分组结果？

转载作者：可可西里更新时间：2023-11-01 16:38:13

25

4

我是 Hadoop PIG 的新手，我有一个如下所示的数据集:

region_id        region         participation   score

    1             SSA               YES          10
    1             SSA               NO           22
    2             MONTPELIER        YES          15
    ....

我想计算每个地区的分数总和。我正在寻找的最终显示是:
REGION - SCORE，例如:

SSA - 32

我加载了我的数据:

data = load '/user/cloudera/datapi/pigdata.csv' using PigStorage (',') AS
 (id:int, region:chararray, participation:chararray, score:int);

然后按地区对数据进行分组:

split_region = GROUP data by region;

最后:

RES= foreach split_region GENERATE SUM(data.score), data.region;

RES 变量包含每个区域的得分总和，但它显示该区域的所有出现情况，如下所示:

(32 , {SSA,SSA})

缺少的显示 (32, SSA) 的命令/指令是什么？

最佳答案

使用group代替data.region

RES = foreach split_region GENERATE SUM(data.score), group;

参见 here对于来源。当您使用 GROUP 运算符时，第一个字段名为“group”(不要将其与 GROUP 运算符混淆)并且与组键的类型相同。

关于hadoop - 如何用拉丁 pig 按地区分组结果？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47355962/

25

4

0

文章推荐： c++ - volatile 复制构造函数有什么用？

文章推荐： c++ - vector::emplace_back 与 shared_ptr 的用法

文章推荐： python - 我很难从我的 python 程序上传数据到地下天气

文章推荐： c++ - 涉及带有易变变量的表达式的简单语句的正确行为？

hadoop - 将矩阵发送给udf pig 拉丁
我对UDF pig 拉丁有问题。我正在尝试实现一个系统，该系统必须验证本地存储的矩阵与hadoop存储库中存储的一组矩阵之间是否存在“映射”。对于映射，我的意思是在hadoop中是否存在一个存储矩
mysql - 数据库排序规则区别UTF？拉丁？ ETC。？
数据库的排序规则用法是什么？好吧，对于 HTML UTF-8，我知道一点，比如显示其他语言类型。但是对于数据库呢？我正在使用 latin-1(默认)，我的 friend 告诉我改用 UTF。当我问为什
apache-pig - 拉丁 pig 包在分组后进行元组
我有以下带有架构的数据 (t0: chararray,t1: int,t2: int) (B,4,2) (A,2,3) (A,3,2) (B,2,2) (A,1,2) (B,1,2) 我想生成以下结果
android - 如何从树中构建 AOSP 拉丁 IME？
我正在尝试构建 AOSP 拉丁 IME(源代码:https://android.googlesource.com/platform/packages/inputmethods/LatinIME/+/m
c# - 如何在西里尔/拉丁字符串中搜索西里尔/拉丁 'a' 或其他类似字符
我正在实现过滤器功能。我使用以下方法定义字符串是否适合查询: someString.IndexOf(someSearch, StringComparison.OrdinalIgnoreCase) >=

首页

博学

6Ren·AI

商城

hadoop - 如何用拉丁 pig 按地区分组结果？