gpt4 book ai didi

scala - Apache Spark : Get number of records per partition

转载 作者:可可西里 更新时间:2023-11-01 14:10:54 25 4
gpt4 key购买 nike

我想检查一下我们如何获取有关每个分区的信息,例如总号。以yarn集群部署方式提交Spark作业时,驱动端各分区的记录数,以便在控制台进行日志或打印。

最佳答案

我会使用内置函数。它应该尽可能高效:

import org.apache.spark.sql.functions.spark_partition_id

df.groupBy(spark_partition_id).count

关于scala - Apache Spark : Get number of records per partition,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46032320/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com