gpt4 book ai didi

sql - 在 hdfs 中存储关系数据的最佳方式

转载 作者:可可西里 更新时间:2023-11-01 14:49:19 25 4
gpt4 key购买 nike

最近我阅读了很多关于 hadoop 的文章,我可以说我理解它的一般概念,但仍然(至少)有一 block 拼图我无法理解。在 hdfs 中存储关系数据的最佳方式是什么。

首先,我知道 hadoop 的存在无法替代为我的应用程序提供服务的传统好旧 sql 数据库。我在这里面临的问题是我想使用 hadoop 将来自多个系统的数据聚合到 hdfs 中。然后我可以将来自多个系统的数据交叉引用在一起,然后生成我的报告工具等使用的新数据集。

好吧,那么,我应该使用一个表将表数据导入一个文件,还是应该导入连接表的查询结果。

例如:

SQL tables:

Person: PersonID Name Birthday Sex

Company:

CompanyID
Name
Address

PersonCompany

PersonID
CompanyID

我应该按原样导入所有 3 个表还是应该导入查询结果返回为什么人在哪个公司工作。

请与我分享您的想法!

最佳答案

通常要在 hadoop 中构建数据仓库,您必须摄取所有表。在您的示例中,您需要在 HDFS 中拥有所有 3 个表,然后进行 ETL/聚合,例如 Joiners_weekly 可以有一个 etl,其中有

select * from PersonCompany pc join Person p on pc.personid=p.personid join Company c on pc.companyid=c.companyid。

这可以是一个可以从 hadoop 生成的报告。希望这可以帮助。

关于sql - 在 hdfs 中存储关系数据的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30938414/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com