gpt4 book ai didi

hadoop - 如果数据大小超过可用内存,是什么让 Spark 变快?

转载 作者:可可西里 更新时间:2023-11-01 14:24:50 25 4
gpt4 key购买 nike

在我试图理解 spark 的任何地方,它都说它很快,因为它将数据保存在内存中,而不是 map reduce。让我们举个例子 -

我有一个 5 节点 spark 集群,每个节点有 100 GB RAM。假设我有 500 TB 的数据来运行 spark 作业。现在 spark 可以保留的总数据是 100*5=500 GB。如果它可以在任何时间点仅在内存中保留最多 500 GB 的数据,是什么让它快如闪电?

最佳答案

Spark 并不神奇,也不能改变计算的基本原理。Spark 使用内存作为渐进增强,对于无法保存的庞大数据集,将回退到磁盘 I/O内存。在必须从磁盘扫描表的场景中,spark 性能应该与其他涉及从磁盘扫描表的并行解决方案相当。

假设 500 TB 中只有 0.1% 是“有趣的”。例如,在营销漏斗中,广告展示次数多,点击次数少,销售量更少,重复销售量也更少。一个程序可以过滤一个巨大的数据集,并告诉 Spark 在内存中缓存一个更小的、经过过滤和更正的数据集,以供进一步处理。 较小过滤数据集的 Spark 缓存显然比重复磁盘表扫描和较大原始数据的重复处理快得多。

关于hadoop - 如果数据大小超过可用内存,是什么让 Spark 变快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32386388/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com