gpt4 book ai didi

apache-spark - 如何对pyspark数据框中的列的值求和

转载 作者:行者123 更新时间:2023-12-02 11:24:15 26 4
gpt4 key购买 nike

我在 Pyspark 工作,我有一个包含以下列的数据框。

Q1 = spark.read.csv("Q1final.csv",header = True, inferSchema = True)
Q1.printSchema()

root
|-- index_date: integer (nullable = true)
|-- item_id: integer (nullable = true)
|-- item_COICOP_CLASSIFICATION: integer (nullable = true)
|-- item_desc: string (nullable = true)
|-- index_algorithm: integer (nullable = true)
|-- stratum_ind: integer (nullable = true)
|-- item_index: double (nullable = true)
|-- all_gm_index: double (nullable = true)
|-- gm_ra_index: double (nullable = true)
|-- coicop_weight: double (nullable = true)
|-- item_weight: double (nullable = true)
|-- cpih_coicop_weight: double (nullable = true)

我需要最后一列 (cpih_coicop_weight) 中所有元素的总和在我的程序的其他部分中用作 Double 。我该怎么做?
非常感谢您提前!

最佳答案

如果您只需要 double 或 int 作为返回值,则以下函数将起作用:

def sum_col(df, col):
return df.select(F.sum(col)).collect()[0][0]

然后
sum_col(Q1, 'cpih_coicop_weight')

将返回总和。
我是 pyspark 的新手,所以我不确定为什么这种简单的列对象方法不在库中。

关于apache-spark - 如何对pyspark数据框中的列的值求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48568214/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com