gpt4 book ai didi

hadoop - ALS.checkpointInterval 和 SparkContext.setCheckpointDir

转载 作者:可可西里 更新时间:2023-11-01 15:11:48 27 4
gpt4 key购买 nike

我试图查找什么 ALS.checkpointInterval确实如此,但它不是很能解释。

设置 ALS.checkpointInterval 和设置 sc.setCheckpointDir() 有什么区别?两者都是必要的,还是它们的工作方式不同?

最佳答案

SparkContext.setCheckpointDir 用于设置全局检查点目录。它不限于 ALS 或任何其他特定算法,但它是 RDD.checkpoint 工作所必需的。

ALS.checkpointInterval 是算法特定的属性,不会影响任何全局设置。来自机器学习文档:

Param for set checkpoint interval (>= 1) or disable checkpoint (-1). E.g. 10 means that the cache will get checkpointed every 10 iterations.

将这两件事放在一起:

  • 这两件事在完全不同的环境下工作并产生不同的结果
  • 两者都是 ALS 中正确检查点所必需的。如果未设置检查点目录 ALS won't checkpoint even if checkpoint interval is set :

    val shouldCheckpoint: Int => Boolean = (iter) =>
    sc.checkpointDir.isDefined &&
    checkpointInterval != -1 &&
    (iter % checkpointInterval == 0)

关于hadoop - ALS.checkpointInterval 和 SparkContext.setCheckpointDir,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36648772/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com