gpt4 book ai didi

python - 如何在 Pyspark 中按列连接/附加多个 Spark 数据帧?

转载 作者:行者123 更新时间:2023-12-04 12:08:11 28 4
gpt4 key购买 nike

如何使用 Pyspark 数据框做相当于 pd.concat([df1,df2],axis='columns') 的 Pandas?
我用谷歌搜索并找不到一个好的解决方案。

DF1
var1
3
4
5

DF2
var2 var3
23 31
44 45
52 53

Expected output dataframe
var1 var2 var3
3 23 31
4 44 45
5 52 53

编辑以包括预期的输出

最佳答案

等效于使用 pyspark 接受的答案将是

from pyspark.sql.types import StructType

spark = SparkSession.builder().master("local").getOrCreate()
df1 = spark.sparkContext.parallelize([(1, "a"),(2, "b"),(3, "c")]).toDF(["id", "name"])
df2 = spark.sparkContext.parallelize([(7, "x"),(8, "y"),(9, "z")]).toDF(["age", "address"])

schema = StructType(df1.schema.fields + df2.schema.fields)
df1df2 = df1.rdd.zip(df2.rdd).map(lambda x: x[0]+x[1])
spark.createDataFrame(df1df2, schema).show()

关于python - 如何在 Pyspark 中按列连接/附加多个 Spark 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44320699/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com