gpt4 book ai didi

apache-spark - Apache Spark 的性能调优

转载 作者:行者123 更新时间:2023-12-04 05:02:56 24 4
gpt4 key购买 nike

我正在做一个项目,在这个项目中我必须调整 spark 的性能。我发现了四个最重要的参数,它们将有助于调整 spark 的性能。它们如下:

  • spark.memory.fraction
  • spark.memory.offHeap.size
  • spark.storage.memoryFraction
  • spark.shuffle.memoryFraction

  • 我想知道我是否朝着正确的方向前进?请让
    我知道我是否也错过了其他一些参数。

    提前致谢。

    最佳答案

    这是相当广泛的诚实回答。优化性能的正确途径主要在官方文档中关于Tuning Spark的部分有描述。 .

    一般来说,有很多因素可以优化 Spark 作业:

  • 数据序列化
  • 内存调优
  • 并行度
  • Reduce 任务的内存使用情况
  • 广播大变量
  • 数据本地化

  • 它主要集中在数据序列化、内存调整和精度/近似技术之间的权衡以快速完成工作。

    编辑:

    由@zero323 提供:

    I'd point out, that all but one option mentioned in the question, are deprecated and used only in legacy mode.

    关于apache-spark - Apache Spark 的性能调优,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44966484/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com