gpt4 book ai didi

apache-spark - 如何在 Apache Spark 中连接两个数据框并将键合并为一列?

转载 作者:行者123 更新时间:2023-12-04 04:43:38 24 4
gpt4 key购买 nike

我有两个以下 Spark 数据框:

sale_df:

|user_id|total_sale|
+-------+----------+
| a| 1100|
| b| 2100|
| c| 3300|
| d| 4400

和 target_df:

 user_id|personalized_target|
+-------+-------------------+
| b| 1000|
| c| 2000|
| d| 3000|
| e| 4000|
+-------+-------------------+

我怎样才能以输出的方式加入他们:

user_id   total_sale   personalized_target
a 1100 NA
b 2100 1000
c 3300 2000
d 4400 4000
e NA 4000

我已经尝试了几乎所有的连接类型,但似乎单个连接无法产生所需的输出。

任何 PySpark 或 SQL 和 HiveContext 都可以提供帮助。

最佳答案

您可以在 Scala 中使用等值连接语法

  val output = sales_df.join(target_df,Seq("user_id"),joinType="outer")

你应该检查它是否在 python 中工作:

   output = sales_df.join(target_df,['user_id'],"outer")

关于apache-spark - 如何在 Apache Spark 中连接两个数据框并将键合并为一列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39868336/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com