gpt4 book ai didi

dataframe - 连接两个数据框,从一个数据框中选择所有列,从另一个数据框中选择一些列

转载 作者:行者123 更新时间:2023-12-03 06:01:05 25 4
gpt4 key购买 nike

假设我有一个 Spark 数据框 df1,其中包含多个列(其中列 id),数据框 df2 包含两个列列,idother

有没有办法复制以下命令:

sqlContext.sql("SELECT df1.*, df2.other FROM df1 JOIN df2 ON df1.id = df2.id")

仅使用 pyspark 函数,例如 join()select() 等?

我必须在函数中实现此连接,并且我不想被迫将 sqlContext 作为函数参数。

最佳答案

星号 (*) 与别名一起使用。例如:

from pyspark.sql.functions import *

df1 = df1.alias('df1')
df2 = df2.alias('df2')

df1.join(df2, df1.id == df2.id).select('df1.*')

关于dataframe - 连接两个数据框,从一个数据框中选择所有列,从另一个数据框中选择一些列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36132322/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com