performance - 在 Apache Spark 中花费更长的时间的任务-6ren

performance - 在 Apache Spark 中花费更长的时间的任务

转载作者：行者123 更新时间：2023-12-04 20:47:41

26

4

我有一个大型数据集，我试图用 Apache Spark(大约 5TB)运行。我注意到，当作业开始时，它检索数据的速度非常快，并且作业的第一阶段(map 转换)完成得非常快。

然而，在处理了大约 500GB 的数据之后，map转换开始缓慢，有些任务需要几分钟甚至几小时才能完成。

我正在使用 10 台具有 122 GB 和 16 个 CPU 的机器，并将所有资源分配给每个工作节点。我想过增加机器的数量，但还有什么我可能会遗漏的吗？

我已经尝试使用我的数据集的一小部分 (30 GB)，它似乎工作正常。

最佳答案

似乎阶段在某些节点中比在其他节点中更快地在本地完成。根据观察结果，我会尝试以下方法:

缓存您处理的 RDD。当你不再需要它时，不要忘记取消它。
Understanding caching, persisting in Spark .

检查分区是平衡的，这似乎不是
情况(这将解释为什么某些本地阶段完成得很多
比别人早)。拥有平衡的分区是 chalice
在 distributed-computing ，不是吗？ :)
How to balance my data across the partitions?

降低通信成本，即使用比您少的 worker
使用，看看会发生什么。当然，这在很大程度上取决于你
应用。你看，有时沟通成本变得如此之大，
它们占主导地位，因此例如使用较少的机器可以加快
工作。但是，只有在第 1 步和第 2 步不够用时，我才会这样做。

关于performance - 在 Apache Spark 中花费更长的时间的任务，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32251109/

26

4

0

文章推荐： sql - 喜欢通过改变是需要的

文章推荐： VBA 项目上的 Excel 2003 数字签名

文章推荐： vim - 语法不起作用 : no errors

c# - 为什么 "is"-operator 在 if 的范围比 if 更长？
所以我的问题是: 为什么(以及如何避免)C# 中的 Is 运算符的生命周期比 if 中使用的更长？例子: Animal a = new Cat(); if (a is Cat c) { Co
javascript - fullpage.js 滚动的 particle.js 更长
我遇到了这个问题，我已经尝试解决了很长一段时间。理想情况下，我希望 particles.js 的“生成框”向下延伸到页面底部(由 fullpage.js 计算的 7 x viewport)，这样当使用
css - 如果父 div 更长，则使 div 拉伸(stretch)到其内容的长度并超出？
我想让一个 div(我的侧边栏)延伸到页面底部。我知道我需要添加“高度:100%；”为了做到这一点。但是当我添加 height: 100%; 时，内容少于侧边栏的页面会降低侧边栏的高度，然后您就看不
sql-server - 在 SQL Server 2008 Management Studio 中扩展数据库列表所需的时间比 SQL Server 2005 更长
只有我这么认为吗，还是在 SQL Server 2008 Management Studio 中扩展数据库列表比在 SQL Server 2005 Management Studio 中扩展数据库列表

首页

博学

6Ren·AI

商城

performance - 在 Apache Spark 中花费更长的时间的任务