gpt4 book ai didi

Hadoop & Hive 作为仓库 : daily data deliveries

转载 作者:可可西里 更新时间:2023-11-01 15:01:36 24 4
gpt4 key购买 nike

我正在评估 hadoop 和 hive(和 impala)的组合作为大型数据仓库的替代品。我已经设置了一个版本,在读取访问方面性能非常好。

有人可以给我一些提示,应该使用什么概念来将日常数据传送到表中?我在 hive 中有一个基于我放入 hdfs 的文件的表。但现在我每天都有新的交易数据进来。如何将它们添加到配置单元中的表中。插入是不可能的。 HDFS 无法追加。那么我需要遵循的一般概念是什么。

感谢任何关于文档的建议或指导。

最好的问候!

最佳答案

Hive 允许将数据附加到表中——这在 HDFS 中如何发生的底层实现无关紧要。附加数据可以做很多事情:

  1. INSERT - 您可以将行附加到现有表。
  2. INSERT OVERWRITE - 如果您必须处理数据,您可以执行 INSERT OVERWRITE 以重写表或分区。
  3. LOAD DATA - 您可以使用它向表中批量插入数据,并且可以选择使用 OVERWRITE 关键字清除任何现有数据。
  4. Partition your data .
  5. 将数据加载到新表中并交换分区

如果您知道要执行基于日期的搜索并使您能够在表或分区级别使用选项 1、2 和 3,则分区非常有用。

关于Hadoop & Hive 作为仓库 : daily data deliveries,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16117968/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com