gpt4 book ai didi

apache-spark - 使用pyspark计算groupBy总数的百分比

转载 作者:行者123 更新时间:2023-12-04 14:38:18 25 4
gpt4 key购买 nike

我在pyspark中有以下代码,生成的表向我显示了列的不同值及其计数。我想让另一列显示每一行代表总计数的百分比。我怎么做?

difrgns = (df1
.groupBy("column_name")
.count()
.sort(desc("count"))
.show())

提前致谢!

最佳答案

如果注释不适合Windowing,则可以举个例子,这是更好的方法:

# Running in Databricks, not all stuff required
from pyspark.sql import Row
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *
#from pyspark.sql.functions import col

data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100),
("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)]
rdd = sc.parallelize(data)

someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3])))

df = sqlContext.createDataFrame(someschema)

tot = df.count()

df.groupBy("c1") \
.count() \
.withColumnRenamed('count', 'cnt_per_group') \
.withColumn('perc_of_count_total', (F.col('cnt_per_group') / tot) * 100 ) \
.show()

返回:
 +---+-------------+-------------------+
| c1|cnt_per_group|perc_of_count_total|
+---+-------------+-------------------+
| E| 1| 16.666666666666664|
| B| 1| 16.666666666666664|
| D| 1| 16.666666666666664|
| C| 1| 16.666666666666664|
| A| 2| 33.33333333333333|
+---+-------------+-------------------+

我专注于Scala,这似乎更容易。就是说,通过注释建议的解决方案使用Window,这是我在Scala中使用over()所做的事情。

关于apache-spark - 使用pyspark计算groupBy总数的百分比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52283751/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com