gpt4 book ai didi

python - 为 pyspark 中的唯一行生成序列列

转载 作者:太空宇宙 更新时间:2023-11-03 14:40:20 28 4
gpt4 key购买 nike

我有一个 pyspark 数据框,如下所示:

col1 | col2 | col3
R a abc
R a abc
G b def
G b def
G b def

我想向其中添加新列,它将根据如下计数为这些唯一行生成索引:

col1 | col2 | col3 | new_column
R a abc 0
R a abc 1
G b def 0
G b def 1
G b def 2

请帮助我使用 pyspark 生成这个新专栏。

提前致谢!

最佳答案

按列对数据进行分区,然后使用行号为新列赋值。

from pyspark.sql.window import Window as W
from pyspark.sql import functions as F

windowSpec = W.partitionBy("col1","col2","col3").orderBy("col1","col2","col3")
df.withColumn("new_column", F.row_number().over(windowSpec)).show()

关于python - 为 pyspark 中的唯一行生成序列列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53875075/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com