gpt4 book ai didi

Hadoop 与 RDBMS 的比较

转载 作者:可可西里 更新时间:2023-11-01 14:25:35 25 4
gpt4 key购买 nike

我真的不明白 hadoop 缩放比 RDBMS 更好的真正原因。谁能详细解释一下?这与底层数据结构和算法有关系吗

最佳答案

RDBMS 在处理 TB 和 Peta 字节的海量数据方面面临挑战。即使您有独立/廉价磁盘冗余阵列 (RAID) 和数据粉碎,它也无法很好地扩展大量数据。您需要非常昂贵的硬件。

编辑:要回答为什么 RDBMS 无法扩展,请查看 Overheads of RBDMS .

记录。组装日志记录并跟踪所有更改在数据库结构中会降低性能。日志记录可能不是如果可恢复性不是必需的,或者如果可恢复性通过其他方式(例如,网络上的其他站点)提供。

锁定。传统的两阶段锁定会带来相当大的开销因为对数据库结构的所有访问都由一个单独的实体,锁管理器。

锁存。在多线程数据库中,许多数据结构必须在他们可以被访问之前被锁存。删除这个功能和使用单线程方法有一个明显的性能影响。

缓冲区管理。主存数据库系统不需要通过缓冲池访问页面,从而消除了对每个记录访问的间接访问。

Hadoop 如何处理?:

Hadoop 是一种基于 Java 的免费编程框架,支持在分布式计算环境中处理大型数据集,可以在商品硬件上运行。它对于存储和检索大量数据很有用。

Hadoop 实现存储机制 (HDFS) 和处理作业(YARN Map reduce 作业)可以实现这种可扩展性和效率。除了可扩展性之外,Hadoop 还提供存储数据的高可用性

可扩展性、高可用性、处理大量数据(结构化数据、非结构化数据、半结构化数据)和灵 active 是 Hadoop 成功的关键。

数据存储在数千个节点上,处理是在存储数据的节点上(大部分时间)通过 Map Reduce 作业完成的。处理前端的数据局部性Hadoop成功的关键领域之一。

这是通过名称节点、数据节点和资源管理器实现的。

要了解 Hadoop 如何实现这一点,您必须访问这些链接:HDFS Architecture , YARN ArchitectureHDFS Federation

RDBMS 仍然适用于千兆字节数据的多次写入/读取/更新和一致的 ACID 事务。但不适合处理 Tera 字节和 Peta 字节的数据。具有 CAP 理论的 Consistency 和 Availability Partitioning 两个属性的 NoSQL 在某些用例中表现良好。

但 Hadoop 并不意味着具有 ACID 属性的实时事务支持。它适用于批处理的商业智能报告 - “一次写入,多次读取”范式。

来自 slideshare.net RDBMS vs Hadoop

再看一个相关的 SE 问题:

NoSql vs Relational database

关于Hadoop 与 RDBMS 的比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32538650/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com