gpt4 book ai didi

scala - 如何基于列值是否在Spark DataFrame的一组字符串中来过滤行

转载 作者:行者123 更新时间:2023-12-03 23:21:42 24 4
gpt4 key购买 nike

有没有一种更优雅的方法来基于字符串集中的值进行过滤?

def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = {
val containsAction = udf((action: String) => {
actions.contains(action)
})

myDF.filter(containsAction('action))
}


在SQL中你可以做

select * from myTable where action in ('action1', 'action2', 'action3')

最佳答案

这个怎么样:

myDF.filter("action in (1,2)")


要么

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(1,2).map(lit(_)):_*))


要么

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(lit(1),lit(2)):_*))


Additional support will be added to make this cleaner in 1.5

关于scala - 如何基于列值是否在Spark DataFrame的一组字符串中来过滤行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31396228/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com