gpt4 book ai didi

apache-spark - 如何获取Pyspark中RDD的大小?

转载 作者:行者123 更新时间:2023-12-04 04:10:41 25 4
gpt4 key购买 nike

我对Apache Spark和Python相对较新,并且想知道如何获得RDD的大小。我有一个RDD看起来像这样:

[[‘ID: 6993.1066',
'Time: 15:53:43',
'Lab: West',
'Lab-Tech: Nancy McNabb, ',
'\tBob Jones, Harry Lim, ',
'\tSue Smith, Will Smith, ',
'\tTerry Smith, Nandini Chandra, ',
]]

pyspark中是否有方法或函数可以确定RDD中有多少个元组?上面的一个有7。

Scala类似于:myRDD.length。

最佳答案

对于RDD单个元素的大小,这似乎是一种方法

>>> rdd = sc.parallelize([(1,2,'the'),(5,2,5),(1,1,'apple')])
>>> rdd.map(lambda x: len(x)).collect()
[3, 3, 3]

对于RDD内的整体元素计数
>>> rdd.count()
3

关于apache-spark - 如何获取Pyspark中RDD的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48898650/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com