gpt4 book ai didi

hadoop - 在 Hadoop Hive Pig 场景中需要专家帮助

转载 作者:可可西里 更新时间:2023-11-01 17:01:29 26 4
gpt4 key购买 nike

我还在学习Hadoop的过程中,遇到过一个具体的情况:我有两个表,mySQL 中的第一个表 A 包含列:电子邮件和地址,而第二个表 B 在 HDFS 中包含列:id、电子邮件和地址。我必须在两个表中查找电子邮件,并使用表 A 中的新行更新表 B(表 B 中不存在的电子邮件是表 A 中的新记录条目,因此必须在表 B 中移动) .

我可以使用 Pig 或 Hive 脚本来解决这个问题吗?有人可以帮我解决这个问题吗?

最佳答案

目前将 MySql 表加载到 HDFS 需要使用 Sqoop 或自定义加载 UDF 进行一些努力。看这个SO Link

一旦您在 HDFS 中拥有数据,只需执行左(或右)连接并获取行中的差异并根据需要创建新关系并将其存储在 HDFS 中。

关于hadoop - 在 Hadoop Hive Pig 场景中需要专家帮助,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23617557/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com