gpt4 book ai didi

hadoop - 如何在Apache Hive中管理修改后的数据

转载 作者:行者123 更新时间:2023-12-02 21:28:39 25 4
gpt4 key购买 nike

我们正在研究Cloudera CDH,并尝试对存储在Apache Hadoop上的数据执行报告。我们每天向客户发送报告,因此需要每天从运营商店导入数据到hadoop。

Hadoop在仅追加模式下工作。因此,我们无法执行Hive更新/删除查询。我们可以对维表执行插入覆盖,并在事实表中添加增量值。每天为成行的增量行引入数千个解决方案似乎并不令人印象深刻。

还有其他更好的标准方法来更新Hadoop中的已修改数据吗?

谢谢

最佳答案

HDFS可能仅是附加的,但是Hive确实支持从0.14开始的更新。

看这里:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Update

一种设计模式是获取您之前和当前的所有数据,并每次将其插入到新表中。

根据您的用例,查看Apache Impala / Hbase / ...甚至Drill。

关于hadoop - 如何在Apache Hive中管理修改后的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35063326/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com