gpt4 book ai didi

hadoop - 为什么配置单元使用 RDBMS 存储 Metastore 而不是文件系统?

转载 作者:可可西里 更新时间:2023-11-01 16:30:30 25 4
gpt4 key购买 nike

我想了解将 RDBMS 用于 Hive 元数据而不是文件系统的设计原则

从我的角度来看,RDBMS 提供 -

并发控制

酸性物质

亚秒级延迟等

文件系统本可以提供 -

数据复制

可以使用 Zookeeper 实现并发

在 Hive 的设计过程中还有其他影响此决定的因素吗?

最佳答案

您可以在论文“Hive: a warehousing solution over a map-reduce framework”中找到 hive 使用 RDBMS 的原因。


描述如下

“应优化 Metastore 的存储系统用于具有随机访问和更新的在线交易。像 HDFS 这样的文件系统不适合,因为它经过优化用于顺序扫描而不是随机访问。所以Metastore 使用传统的关系数据库(如MySQL、Oracle)或文件系统(如本地、NFS、AFS)和不是HDFS。因此,仅访问的 HiveQL 语句元数据对象以非常低的延迟执行。然而,Hive 必须显式维护之间的一致性元数据和数据。”


关于hadoop - 为什么配置单元使用 RDBMS 存储 Metastore 而不是文件系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35498992/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com