gpt4 book ai didi

python - 替换 PySpark 中的字符串

转载 作者:太空宇宙 更新时间:2023-11-03 13:07:40 27 4
gpt4 key购买 nike

我有一个数据框,其中包含欧洲格式的数字,我将其作为字符串导入。逗号作为十进制,反之亦然 -

from pyspark.sql.functions import regexp_replace,col
from pyspark.sql.types import FloatType
df = spark.createDataFrame([('-1.269,75',)], ['revenue'])
df.show()
+---------+
| revenue|
+---------+
|-1.269,75|
+---------+
df.printSchema()
root
|-- revenue: string (nullable = true)

期望的输出:df.show()

+---------+
| revenue|
+---------+
|-1269.75|
+---------+
df.printSchema()
root
|-- revenue: float (nullable = true)

我正在使用函数 regexp_replace 首先用空格替换点 - 然后用空点替换逗号,最后转换为 floatType。

df = df.withColumn('revenue', regexp_replace(col('revenue'), ".", ""))
df = df.withColumn('revenue', regexp_replace(col('revenue'), ",", "."))
df = df.withColumn('revenue', df['revenue'].cast("float"))

但是,当我尝试在下面进行替换时,我得到的是空字符串。为什么??我期待 -1269,75

df = df.withColumn('revenue', regexp_replace(col('revenue'), ".", ""))
+-------+
|revenue|
+-------+
| |
+-------+

最佳答案

您需要转义 . 以按字面匹配它,因为 .matches almost any character 的特殊字符在正则表达式中:

df = df.withColumn('revenue', regexp_replace(col('revenue'), "\\.", ""))

关于python - 替换 PySpark 中的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53088064/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com