gpt4 book ai didi

apache-spark-sql - 在sparksql中过滤掉空字符串和空字符串

转载 作者:行者123 更新时间:2023-12-02 04:41:47 27 4
gpt4 key购买 nike

好的,我有一些数据,我想在其中过滤掉所有空值和空值。所以我使用简单的sql命令首先过滤掉空值。

hiveContext.sql("select username from daten where username is not null").show()

我得到的是这样的。

org.apache.spark.sql.DataFrame = [username: array<string>]

用户名

|          [null]|
| [null]|
| [null]|
| []|
| []|
| [null]|
| [null]|
| []|
| [null]|
| [null]|
| [null]|
| [null]|
|[dirk.staszak.3]|
| []|
| []|
| [null]|
| [null]|
| [null]|
| [null]|
| [null]|

所以那里仍然有一些空条目。我不知道为什么?

有没有办法通过使用 sparksql 过滤掉这个空条目并额外过滤掉所有空字符串?我考虑过按字符串长度进行过滤,但 sparksql 不支持 len 函数。

最佳答案

您可以从给定的表创建一个数据框,并在 spark sql 中使用过滤器来完成任务 dataframe.filter("username is not null and username !='null'")

关于apache-spark-sql - 在sparksql中过滤掉空字符串和空字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36935424/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com