gpt4 book ai didi

scala - Spark和Scala,通过映射公共(public)键添加具有来自另一个数据帧的值的新列

转载 作者:行者123 更新时间:2023-11-30 08:48:51 26 4
gpt4 key购买 nike

我有 2 个数据框。
df1 =

dep-code    rank
abc 1
bcd 2

df2=

some cols...  dep-code 
abc
bcd
abc

我想将新列添加到 df2 作为 df1.dep-code = df2.dep-code 的排名

结果 -

some cols...   dep-code   rank
abc 1
bcd 2
abc 1

最佳答案

这是一个简单的连接:

df2.join(df1, "dep-code")

具有以下输入:

df1 带有连接和所需的列:

+--------+----+
|dep-code|rank|
+--------+----+
| abc| 1|
| bcd| 2|
+--------+----+

df2 带有连接列加上一个额外的列 (aColumn):

+----------+--------+
| aColumn|dep-code|
+----------+--------+
| some| abc|
| someother| bcd|
|yetAnother| abc|
+----------+--------+

您将检索以下输出:

+--------+----------+----+
|dep-code| aColumn|rank|
+--------+----------+----+
| abc| some| 1|
| abc|yetAnother| 1|
| bcd| someother| 2|
+--------+----------+----+

关于scala - Spark和Scala,通过映射公共(public)键添加具有来自另一个数据帧的值的新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48902427/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com