gpt4 book ai didi

mysql - MySQL Cluster 之上的 Hive 层

转载 作者:可可西里 更新时间:2023-11-01 15:41:28 26 4
gpt4 key购买 nike

免责声明:我是 Hadoop 和 Hive 的新手。

我们搭建了一个存储海量数据的MySql集群(7.2.5版本)。行数达到数百万,并根据 Mysql 的自动分片逻辑进行分区。尽管我们正在利用 Cluster 7.2 的自适应查询本地化 (AQL),但我们的一些查询有多个连接并且会运行几分钟甚至几个小时。

在这种情况下,我可以使用 Hive 和 Hadoop 一起查询数据库并检索数据吗?它会使查询更快吗?它是否复制其文件系统中的数据?这种方法的优缺点是什么?

我的意图是使用 Hive 作为 MySQL Cluster 之上的一个层,并使用它来读取/写入 MySQL Cluster DB。我的申请中没有任何交易。那么这真的可能吗?

最佳答案

我觉得是可以的。我所知道的在这个方向上最接近的解决方案是:http://www.hadapt.com/by Daniel Abadi。
它解决方案的想法是在每个节点上都有本地 RDBMS 并在这些节点上运行通常的 hadoop MR 和 Hive。
原则上,如果您将进行智能 Hive 集成并将谓词下推到 MySQL 实例,它可以为您带来一些性能提升。
同时,你应该做一些严肃的黑客攻击,让 hadoop 知道你的分片位置以保护数据局部性。
总结以上所有 - 它应该是可能的,但需要认真的发展。
同时——我不知道开箱即用的解决方案可以按原样在 Mysql 集群上运行配置单元。

关于mysql - MySQL Cluster 之上的 Hive 层,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10793891/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com