gpt4 book ai didi

apache-spark - 使用pyspark连接数据帧的多列

转载 作者:行者123 更新时间:2023-12-03 22:55:24 25 4
gpt4 key购买 nike

假设我有一个列列表,例如:

col_list = ['col1','col2']
df = spark.read.json(path_to_file)
print(df.columns)
# ['col1','col2','col3']

我需要通过连接 col1col2 来创建一个新列。我不想在连接时对列名进行硬编码,但需要从列表中选择它。

我怎样才能做到这一点?

最佳答案

您可以使用 pyspark.sql.functions.concat() concatenate 与您在 list 中指定的列一样多。继续将它们作为参数传递。

from pyspark.sql.functions import concat
# Creating an example DataFrame
values = [('A1',11,'A3','A4'),('B1',22,'B3','B4'),('C1',33,'C3','C4')]
df = sqlContext.createDataFrame(values,['col1','col2','col3','col4'])
df.show()
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| A1| 11| A3| A4|
| B1| 22| B3| B4|
| C1| 33| C3| C4|
+----+----+----+----+

concat() 函数中,您传递需要连接的所有列 - 就像 concat('col1','col2') 。如果您有列表,则可以使用 un-list 对其进行 * 。所以 (*['col1','col2']) 返回 ('col1','col2')
col_list = ['col1','col2']
df = df.withColumn('concatenated_cols',concat(*col_list))
df.show()
+----+----+----+----+-----------------+
|col1|col2|col3|col4|concatenated_cols|
+----+----+----+----+-----------------+
| A1| 11| A3| A4| A111|
| B1| 22| B3| B4| B122|
| C1| 33| C3| C4| C133|
+----+----+----+----+-----------------+

关于apache-spark - 使用pyspark连接数据帧的多列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54921359/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com