join - 如何使用 Pig 对基数为 0,1 且主要为 1,n 的 2 个 csv 文件进行非规范化？-6ren

join - 如何使用 Pig 对基数为 0,1 且主要为 1,n 的 2 个 csv 文件进行非规范化？

转载作者：行者123 更新时间：2023-12-02 20:06:25

24

4

我的 pig 脚本需要一些帮助。
我有 2 个 csv 文件，我想用一个共同的 id 在它们之间进行连接。

customer.csv :
1   ; nom1   ; prenom1   
2   ; nom2   ; prenom2   
3   ; nom3   ; prenom3   


child.csv
1  ; enfant_1_1  
2  ; enfant_1_2  
3  ; enfant_1_3  
1  ; enfant_2_1  
1  ; enfant_3_1

因此，一个客户可以有多个 child ，但一个 child 只能有一个“客户”。

我想创建这个文件:

1   ; nom1   ; prenom1  ; enfant_1_1  ; enfant_2_1  ; enfant_3_1    
2   ; nom2   ; prenom2  ; enfant_1_2   
3   ; nom3   ; prenom3  ; enfant_1_3

这是我的方法:

首先我尝试确实有:

1  ; enfant_1_1  ; enfant_2_1  ; enfant_3_1
2  ; enfant_1_2
3  ; enfant_1_3

之后我将使用custome.csv 加入

告诉我你认为有一个最简单的方法:)

这是我的脚本:

donnees_Enfants = LOAD '/user/cloudera/Jeux/mini_jeu2.csv' USING PigStorage(';')
AS (id_parent:int,nom_enfant:chararray);

group_enfants = GROUP donnees_Enfants BY id_parent;

enfant_uneLigne = foreach group_enfants generate group, donnees_Enfants.nom_enfant;

grunt> echantillon = LIMIT enfant_uneLigne 50;
grunt> DUMP echantillon;

使用 DESCRIBE :
group_enfants: {group: int,donnees_Enfants: {(id_parent: int,nom_enfant: chararray)}}
enfant_uneLigne: {group: int,{(nom_enfant: chararray)}}

结果 :

(1,{( enfant_2_1  ),( enfant_1_1  ),( enfant_3_1  )})
(2,{( enfant_2_2  )})
(3,{( enfant_2_3  )})

我试图压平“enfant_1_2”......但结果是每个 child 都有一个lign......
我在玩元组和袋子时遇到了一些困难，你能帮帮我吗？

提前致谢，

编辑:我找到了解决我的问题的方法，更多^^见下文

安吉利克

最佳答案

最后，我找到了解决方案，它适用于 child 的更多字段:(id，name，age)。

-- 1.加载两个文件

donnees_Enfants = LOAD '/user/cloudera/JeuxDenormalisation/Jeux/mini_jeu2.csv' 使用 PigStorage(';')
AS (id:int,nom_enfant:chararray);

donnees_Parents = LOAD '/user/cloudera/JeuxDenormalisation/Jeux/mini_jeu1.csv' 使用 PigStorage(';')
AS (id_parent:int,nom_parent:chararray,prenom_parent:chararray);

-- 2. 将文件与 LEFT OUTER 连接起来，以保留没有 child 的客户。

非规范化 = JOIN donnees_Parents BY id_parent LEFT OUTER, donnees_Enfants BY id ;

(9, nom9   , prenom9   ,9, enfant_2_9  )
(9, nom9   , prenom9   ,9, enfant_3_9  )
(9, nom9   , prenom9   ,9, enfant_1_9  )
(10, nom10  , prenom10  ,10, enfant_3_10)
(10, nom10  , prenom10  ,10, enfant_1_10 )
(10, nom10  , prenom10  ,10, enfant_2_10 )

-- 3. GroupBy on the customer 只有一行 by customer

unParent_parLigne = (id_parent, nom_parent, prenom_parent) 的 GROUP 非规范化；

((48, nom48  , prenom48  ),{(48, nom48  , prenom48  ,48, enfant_2_48 ),(48, nom48  , prenom48  ,48, enfant_1_48 )})
((49, nom49  , prenom49  ),{(49, nom49  , prenom49  ,49, enfant_2_49 ),(49, nom49  , prenom49  ,49, enfant_1_49 )})
((50, nom50  , prenom50  ),{(50, nom50  , prenom50  ,50, enfant_2_50 ),(50, nom50  , prenom50  ,50, enfant_1_50 )})
((51, nom51  , prenom51  ),{(51, nom51  , prenom51  ,51, enfant_1_51 )})

-- 4. 在行上展平:

ligne_finale = foreach unParent_parLigne generate FLATTEN (group), FLATTEN(BagToTuple(denormalisation.(donnees_Enfants::nom_enfant,donnees_Enfants::age)));

(9, nom9   , prenom9   , enfant_2_9  , enfant_3_9  , enfant_1_9  )
(10, nom10  , prenom10  , enfant_3_10, enfant_1_10 , enfant_2_10 )
(11, nom11  , prenom11  , enfant_1_11 , enfant_2_11 )

或者如果有更多字段(使用“donnees_Enfants::age”):

(8, nom8   , prenom8   , enfant_3_8  , age_3_8 , enfant_2_8  , age_2_8 , enfant_1_8  , age_1_8 )
(9, nom9   , prenom9   , enfant_2_9  , age_2_9 , enfant_3_9  , age_3_9 , enfant_1_9  , age_1_9 )
(10, nom10  , prenom10  , enfant_3_10 , age_3_10, enfant_1_10 , age_1_10, enfant_2_10 , age_2_10)

-- 5. 将数据存储在 csv 文件中
STORE ligne_finale INTO '/user/cloudera/JeuxDenormalisation/Resultats/test4'
使用 org.apache.pig.piggybank.storage.PigStorageSchema(";");

关于join - 如何使用 Pig 对基数为 0,1 且主要为 1,n 的 2 个 csv 文件进行非规范化？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22612706/

24

4

0

文章推荐： join - 无法在Hive 0.12中使用存储桶映射联接

文章推荐： docker - 无法启动Docker终端

python - 使用二进制补码在 DEC(基数 10)和 HEX(基数 16)之间转换
正如标题所说，我需要制作一个函数，在二进制补码中的 2 个碱基、DEC 和 HEX 之间进行转换。该值使用的位数从一开始就已知。在深入研究之后，我发现了以下算法: 给定一个 DEC 中的数字。获取
elasticsearch - 在ElasticSearch中是否可以通过逻辑关系执行用户计数/基数？
我的用户文档具有以下格式: { userId: "", userAttributes: [ "", "", ... ""
Oracle 选择性/基数
根据这个: Selectivity is the value between 0 and 1, and it is the fraction of rows returned after applyi
performance - FillChar，但对于整数/基数
这个词有它 FillChar 是用相同值的字节填充内存补丁的最快方法(不是零，因为有 ZeroMemory)，但是是否有等效于用相同的序列填充内存(四字节)整数或基数？像 FillInt 或 Fill
nhibernate - 建模一对零或一对关系(Z 基数)
我正在努力寻找建模 1 : 0,1 关系的最佳方法(“可能有一个”或“最多有一个”)。我相信这被称为 Z 基数。例如，假设我有两个类 Widget和 WidgetTest .并非所有 Widget
javascript - parseInt 方法的第二个参数(基数)
我使用parseInt找到了一个片段；它用于获取窗口高度。这是代码: parseInt($(window).height(), 20); 我很困惑为什么使用 20 作为第二个参数。为什么不是 10
C# 基数 2 到十进制
要将十进制数转换为基数 2，我使用: int base2 = 10; Convert.ToString(base2, 2); 输出:1010 但是我怎么能做相反的事情呢？即: 输入:1010输出:10
NULL 值的 MySQL 基数
这是一张真实 table 的再现。假设我有这段代码: CREATE TABLE `testTable` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
computer-science - 基数 36 后使用什么符号
由于十六进制(基数 16)使用 0-9A-F，并且(我在这里假设)基数 17 使用 0-9A-G，依此类推。什么符号用过一次0-9A-Z都用完了。最佳答案你的问题没有标准答案。 “Base 36”
javascript - 支持 Number.toString(基数)
我正在寻找支持 radix 的浏览器列表Number.toString() 中的参数在 JavaScript 中。全部执行toString ，但我找不到他们是否都支持 radix toString 的
java - Integer.ValueOf 基数 16
这个问题已经有答案了: What is the radix parameter in Java, and how does it work? (6 个回答) 已关闭 5 年前。 public clas
Javascript Number.toString(基数) 行为
为什么 (73).toString(36) 返回 21 而 (0.73).toString(36) 返回 0。 qa2voha2volfpsnhmyhqia4i 而不是 0.21？最佳答案这是因为
database - 关系类型、程度、基数、可选性术语混淆
我目前正在研究数据库，我看到 degree 和 cardinality 用作相同的术语，或在某些其他学位定义为否。关系中涉及的实体的数量，并进一步分类为一元、二元和三元。某些放置度数定义为关系类型的
uml - 基数 "*"和 "0..*"之间的区别-UML
UML(统一建模语言)中的运算符*和运算符0..*有什么区别？我看到了这两个基数运算符，但是现在我不必使用哪个基数运算符了。最佳答案符号“*”是“0 .. *”的快捷方式。在这种情况下使用的正确
angularjs - 如何从 Angular $location 获取主机 + 基数
我有位于目录“someApp”中的 Angular 应用程序。网址是 http://example-domain/someApp/#/对于一些带有路径的状态 url 是:http://example-
oop - 如何*真正*编写 UML 基数？
我想一劳永逸地知道如何编写 UML 基数，因为我经常不得不讨论它们(因此非常欢迎证据和来源:) 如果我想解释一下 Mother可以有几个Child任但是 Child有一个而且只有一个 Mother ，
java - 字符算术 --- 基数 8 与基数 10
进行字符算术时，规则是以 10 为基数还是以 8 为基数进行计算？我的书上说'A' = 101(基数为8)或65(基数为10)，但是当我将基数为8的字符值插入到我的书给出的关于说明这一点的示例中时，我
c - 基数 4 到基数 2 转换器
该程序是将 4 进制数转换为 2 进制数，并且应该就地完成 #include #include void shiftr(char num[],int i) { memmove(num+i,n
javascript - ParseInt 16 基数转 10 基数
这个问题已经有答案了: JavaScript parseInt is giving me wrong number, what I'm doing wrong? [duplicate] (1 个回答)
javascript - 当我传入图像数据字符串(基数 64)时，图像加载似乎被提前调用
我遇到了一个小错误，它似乎表明当您传入图像数据作为其源时，在图像完全加载之前调用了 onload 函数。这是 HTML 这是 JavaScript: var can

首页

博学

6Ren·AI

商城

join - 如何使用 Pig 对基数为 0,1 且主要为 1,n 的 2 个 csv 文件进行非规范化？