gpt4 book ai didi

python - 如何删除 pyspark 中的特殊字符、unicode 表情符号?

转载 作者:行者123 更新时间:2023-12-04 14:46:55 28 4
gpt4 key购买 nike

大家下午好,我在清除dataframe的字符串列中的特殊字符时遇到问题,我只想删除特殊字符,如html组件、表情符号和unicode错误,例如\u2013 .

有没有人有正则表达式可以帮助我?或者对如何处理这个问题有什么建议吗?

输入:

i want to remove 😃 and codes "\u2022"

预期输出:

i want to remove and codes

我试过:

re.sub('[^A-Za-z0-9 \u2022]+', '', nome)

regexp_replace('nome', '\r\n|/[\x00-\x1F\x7F]/u', ' ')

df = df.withColumn(“值(value)_2”,F.regexp_replace(F.regexp_replace("value", "[^\x00-\x7F]+", ""), '""', ''))

df = df.withColumn("new",df.text.encode('ascii', errors='ignore').decode('ascii'))

尝试了一些解决方案,但没有人识别字符“\u2013”​​,有没有人遇到过这种情况?

最佳答案

您可以使用这个 regex使用 regexp_replace 函数从列中删除所有 unicode 字符。然后删除可以保留的额外双引号:

import pyspark.sql.functions as F

df = spark.createDataFrame([('i want to remove 😃 and codes "\u2022"',)], ["value"])

df = df.withColumn(
"value_2",
F.regexp_replace(F.regexp_replace("value", "[^\x00-\x7F]+", ""), '""', '')
)

df.show(truncate=False)

#+---------------------------------+----------------------------+
#|value |value_2 |
#+---------------------------------+----------------------------+
#|i want to remove 😃 and codes "•"|i want to remove and codes |
#+---------------------------------+----------------------------+

关于python - 如何删除 pyspark 中的特殊字符、unicode 表情符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69860166/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com