gpt4 book ai didi

hadoop - 在 Hive 之外聚合是更好的选择吗?

转载 作者:可可西里 更新时间:2023-11-01 16:38:57 25 4
gpt4 key购买 nike

我有更多的概念性问题。我正在使用 Hive 提取数据,然后我想将所有检索到的值插入到 IBM BigSQL(基本上是 DB2)中,以便更容易/更快地聚合数据。所以我想在 Hive 中创建一个 View ,我将使用它每晚执行 CTAS,以便我可以获取该表并将其迁移到 db2 并执行其余的聚合。有更好的做法吗?我想做所有事情,包括在 Hive 中聚合,但速度非常慢。

感谢您的建议!

最佳答案

考虑到您使用的是 Cloudera,是否有理由不在 Impala 中执行聚合?将 json 数据转换为 Parquet (如果没有很多嵌套结构,我会推荐这样做)应该不会很昂贵。另一种选择取决于您正在进行的聚合类型是使用 Spark 转换数据(也将取决于您的集群大小)。我想给你更具体的提示,但不知道你在做什么聚合是复杂的

关于hadoop - 在 Hive 之外聚合是更好的选择吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45724556/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com