gpt4 book ai didi

apache-spark - 连接后如何重命名重复的列?

转载 作者:行者123 更新时间:2023-12-03 07:47:11 31 4
gpt4 key购买 nike

我想对 3 个数据帧使用 join,但有些列我们不需要,或者与其他数据帧有一些重复的名称,所以我想删除一些列,如下所示:

result_df = (aa_df.join(bb_df, 'id', 'left')
.join(cc_df, 'id', 'left')
.withColumnRenamed(bb_df.status, 'user_status'))

请注意status列位于两个数据框中,即 aa_dfbb_df .

上面的方法不起作用。我还尝试使用withColumn ,但是新列已创建,旧列仍然存在。

最佳答案

如果您尝试重命名 bb_df 数据帧的 status 列,那么您可以在加入时执行此操作

result_df = aa_df.join(bb_df.withColumnRenamed('status', 'user_status'),'id', 'left').join(cc_df, 'id', 'left')

关于apache-spark - 连接后如何重命名重复的列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50287558/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com