gpt4 book ai didi

apache-spark - Spark : how to get the number of written rows?

转载 作者:行者123 更新时间:2023-12-04 05:29:27 25 4
gpt4 key购买 nike

我想知道是否有办法知道 Spark 保存操作写入的行数。我知道在写之前对 RDD 进行计数就足够了,但我想知道是否有办法在不这样做的情况下获得相同的信息。

谢谢,
马可

最佳答案

如果你真的想要你可以添加自定义监听器并从 outputMetrics 中提取写入的行数.非常简单的示例如下所示:

import org.apache.spark.scheduler.{SparkListener, SparkListenerTaskEnd}

var recordsWrittenCount = 0L

sc.addSparkListener(new SparkListener() {
override def onTaskEnd(taskEnd: SparkListenerTaskEnd) {
synchronized {
recordsWrittenCount += taskEnd.taskMetrics.outputMetrics.recordsWritten
}
}
})

sc.parallelize(1 to 10, 2).saveAsTextFile("/tmp/foobar")
recordsWrittenCount
// Long = 10

但这部分 API 是供内部使用的。

关于apache-spark - Spark : how to get the number of written rows?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37496650/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com