gpt4 book ai didi

hadoop - map 简化和RDBMS

转载 作者:行者123 更新时间:2023-12-02 21:33:42 25 4
gpt4 key购买 nike

我正在阅读hadoop权威指南,它写的是Map Reduce,它适合于更新数据库的较大部分,它使用Sort&Merge来重建数据库,具体取决于传输时间。

另外,RDBMS还适合仅更新大型数据库的较小部分,它使用的B树受到查找时间的限制

谁能详细说明这两种说法的真正含义?

最佳答案

我不确定这本书是什么意思,但是如果您仍然有原始数据,通常您会做一个简化 map 的工作来重建整个数据库/任何东西。

hadoop真正的好处是它是分布式的,因此性能并不是真正的问题,因为您可以添加更多机器。

让我们举个例子,您需要重建一个具有10亿行的复杂表。使用RDBMS,您只能垂直扩展,因此,您将更多地取决于CPU的功能以及算法的速度。您将使用一些SQL命令来完成此操作。您将需要选择一些数据,对其进行处理,进行填充等。因此,您很可能会受到搜索时间的限制。

使用hadoop map reduce,您可以只添加更多机器,因此性能不是问题。假设您使用10000个映射器,这意味着该任务将被划分为10000个映射器容器,并且由于hadoop的性质,所有这些容器通常已经在本地将其硬盘上的数据存储了。每个映射器的输出始终是其本地硬盘驱动器上的键值结构格式。这些数据由映射器使用键进行排序。

现在的问题是,他们需要将数据组合在一起,因此所有这些数据都将被发送到 reducer 。这是通过网络发生的,如果拥有大数据,通常是最慢的部分。精简器将接收所有数据,并将它们合并分类以进行进一步处理。最后,您可以将一个文件上传到数据库中。

如果您有大量数据,则从映射器到化简器的传输通常花费最长时间,而网络通常是您的瓶颈。也许这取决于传输时间。

关于hadoop - map 简化和RDBMS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33448268/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com