gpt4 book ai didi

azure - pyspark从所有列的数据中删除控制字符的最佳方法

转载 作者:行者123 更新时间:2023-12-02 08:32:15 25 4
gpt4 key购买 nike

我有一个数据框,其中的列包含回车符、换行符和制表符。我找到了一个包含 pandas 解决方案的帖子:

replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=<INPLACE>)

如何在 Spark 数据框中执行此操作?

最佳答案

要替换回车符、换行符和制表符,可以使用 \s

\s = [ \t\n\r\f\v]

您需要在所有数据框列中进行替换的 pyspark 代码:

from pyspark.sql import functions as F

df = spark.createDataFrame([("\ttext1", 'text2\n', 'te\rxt3'), ("text1\t", '\ntext2', 't\rext3')], ['col1', 'col2', 'col3'])

expr = [F.regexp_replace(F.col(column), pattern="\s+", replacement=",").alias(column) for column in df.columns]

df.select(expr).show()

+------+------+------+
| col1| col2| col3|
+------+------+------+
|,text1|text2,|te,xt3|
|text1,|,text2|t,ext3|
+------+------+------+

关于azure - pyspark从所有列的数据中删除控制字符的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59860765/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com