gpt4 book ai didi

apache-spark - Spark 数据集 - 内部连接问题

转载 作者:行者123 更新时间:2023-12-01 04:53:26 25 4
gpt4 key购买 nike

我使用的是 Spark 2.0.0,我有两个数据集 (Dataset[Row]),如下所示。

数据集“appUsage”:

+----------+-------------------+----------+
|DATE |APP_ID |TIMES_USED|
+----------+-------------------+----------+
|2016-08-03|06xgKq10eeq0REK4eAc|null |
|2016-08-03|ssads2wsdsf |null |
|2016-08-03|testApp |null |
|2016-08-03|3222aClie-971837083|5 |
|2016-08-03|V2aadingTLV02 |null |
|2016-08-03|OurRating-985443645|5 |
|2016-08-03|Trdssktin-743439164|null |
|2016-08-03|myaa1-app |null |
|2016-08-03|123123123-013663450|null |
+----------+-------------------+----------+

数据集“appDev”
+-------------------+------------------------------------+
|APP_ID |DEVELOPER_ID |
+-------------------+------------------------------------+
|OurRating-985443645|5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
|Xa11d0-560090096095|5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
+-------------------+------------------------------------+

当我使用以下代码进行左连接时,一切都按预期工作。
val result = appUsage.join(appDev, Seq("APP_ID"), "left")

输出是:
+-------------------+----------+----------+------------------------------------+
|APP_ID |DATE |TIMES_USED|DEVELOPER_ID |
+-------------------+----------+----------+------------------------------------+
|06xgKq10eeq0REK4eAc|2016-08-03|null |null |
|ssads2wsdsf |2016-08-03|null |null |
|testApp |2016-08-03|null |null |
|3222aClie-971837083|2016-08-03|5 |null |
|V2aadingTLV02 |2016-08-03|null |null |
|OurRating-985443645|2016-08-03|5 |5fff25c7-6a70-4d54-ad04-197be4b9a6a9|
|Trdssktin-743439164|2016-08-03|null |null |
|myaa1-app |2016-08-03|null |null |
|123123123-013663450|2016-08-03|null |null |
+-------------------+----------+----------+------------------------------------+

但我想做一个内部连接,以便只有两个数据集中都存在的行才是结果集的一部分。但是,当我使用以下代码执行此操作时,输出为空。
val result = appUsage.join(appDev, Seq("APP_ID"), "inner")

我错过了什么吗?

最佳答案

尝试这个:

val result = appUsage.join(appDev, "APP_ID")

我在 Databrics cloud 上试过了与 Spark 2.0.0它工作正常。

请引用 this .

关于apache-spark - Spark 数据集 - 内部连接问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39094730/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com