gpt4 book ai didi

python - 如何检查pyspark数据框中的字符串列是否全部为数字

转载 作者:行者123 更新时间:2023-11-28 22:13:44 25 4
gpt4 key购买 nike

我有一个 PySpark Dataframe,其中包含一列 strings。如何检查其中的哪些行是数字。我在 PySpark 的 official documentation 中找不到任何函数.

values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
| ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+

在 Python 中,有一个函数 .isDigit() 如果 string 返回 TrueFalse是否只包含数字。

预期的数据帧:

+-----+-------+
| ID| Value |
+-----+-------+
|25q36| False |
|75647| True |
|13864| True |
|8758K| False |
|07645| True |
+-----+-------+

我想避免创建 UDF

最佳答案

一个简单的转换就可以完成这项工作:

from pyspark.sql import functions as F

my_df.select(
"ID",
F.col("ID").cast("int").isNotNull().alias("Value ")
).show()

+-----+------+
| ID|Value |
+-----+------+
|25q36| false|
|75647| true|
|13864| true|
|8758K| false|
|07645| true|
+-----+------+

关于python - 如何检查pyspark数据框中的字符串列是否全部为数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53743795/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com