gpt4 book ai didi

hadoop - Hive 从单个表的数据创建/更新多个表

转载 作者:可可西里 更新时间:2023-11-01 15:01:30 24 4
gpt4 key购买 nike

我在 hadoop 集群中有一些包含 10 个字段的结构化数据。我需要将此数据更新到配置单元的多个表中,其中包含原始数据中存在的字段子集。

例如:假设数据有字段 F1、F2、F3 ... F10。我有包含字段 F1、F2 的表 B1。表 B2 包含 F1、F3。表 B3 包含 F2、F4。

我想知道是否有一种方法可以在不多次读取A中的数据的情况下填充表B1、B2、B3中的数据。

仅供引用:我通过将数据分散到多个表中来对数据进行去规范化,因为这些表将有数百万条记录,我稍后会汇总它们以生成一些统计数据。

目前,我正在考虑以下方法。使用 map reduce 作业读取数据并使用多种输出格式将不同的组合键写入多个文件并将数据从这些文件加载​​到配置单元表。请建议是否有更好的方法来做到这一点。

最佳答案

Hive 有 multi-table inserts :

FROM A
INSERT INTO TABLE B1 SELECT F1, F2
INSERT INTO TABLE B2 SELECT F1, F3
INSERT INTO TABLE B3 SELECT F2, F4;

关于hadoop - Hive 从单个表的数据创建/更新多个表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21546200/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com