gpt4 book ai didi

performance - 在 Apache Spark 中花费更长的时间的任务

转载 作者:行者123 更新时间:2023-12-04 20:47:41 26 4
gpt4 key购买 nike

我有一个大型数据集,我试图用 Apache Spark(大约 5TB)运行。我注意到,当作业开始时,它检索数据的速度非常快,并且作业的第一阶段(map 转换)完成得非常快。

然而,在处理了大约 500GB 的数据之后,map转换开始缓慢,有些任务需要几分钟甚至几小时才能完成。

我正在使用 10 台具有 122 GB 和 16 个 CPU 的机器,并将所有资源分配给每个工作节点。我想过增加机器的数量,但还有什么我可能会遗漏的吗?

我已经尝试使用我的数据集的一小部分 (30 GB),它似乎工作正常。

最佳答案

似乎阶段在某些节点中比在其他节点中更快地在本地完成。根据观察结果,我会尝试以下方法:

  • 缓存 您处理的 RDD。当你不再需要它时,不要忘记取消它。
    Understanding caching, persisting in Spark .
  • 检查 分区是平衡的,这似乎不是
    情况(这将解释为什么某些本地阶段完成得很多
    比别人早)。拥有平衡的分区是 chalice
    ,不是吗? :)
    How to balance my data across the partitions?
  • 降低通信成本,即使用比您少的 worker
    使用,看看会发生什么。当然,这在很大程度上取决于你
    应用。你看,有时沟通成本变得如此之大,
    它们占主导地位,因此例如使用较少的机器可以加快
    工作。但是,只有在第 1 步和第 2 步不够用时,我才会这样做。
  • 关于performance - 在 Apache Spark 中花费更长的时间的任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32251109/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com