gpt4 book ai didi

scala - Spark Scala过滤器DataFrame,其中值不在另一个DataFrame中

转载 作者:行者123 更新时间:2023-12-04 12:18:52 26 4
gpt4 key购买 nike

我有两个数据帧:ab .这是它们的样子:

a
-------
v1 string
v2 string

roughly hundreds of millions rows


b
-------
v2 string

roughly tens of millions rows

我想保留来自 DataFrame 的行 a哪里 v2不在 b("v2") .

我知道我可以使用左连接和过滤器,其中右侧为空或 SparkSQL 与“不在”构造。我敢打赌有更好的方法。

最佳答案

您可以使用 except 来实现这一点。 Dataset的方法, 至“返回包含此数据集中的行但不包含在另一个数据集中的行的新数据集”

关于scala - Spark Scala过滤器DataFrame,其中值不在另一个DataFrame中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35399082/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com