gpt4 book ai didi

python - 如何从python中的字符串中删除特殊字符?

转载 作者:太空宇宙 更新时间:2023-11-04 08:54:03 24 4
gpt4 key购买 nike

我从网上抓取了数百万个字符串,例如:

s = 'WHAT\xe2\x80\x99S UP DOC?'
type(s) == str # returns True

从网络上抓取时,像上面字符串中的特殊字符是不可避免的。应该如何删除所有这些特殊字符以保留干净的文本?基于我对 unicode 字符的非常有限的经验,我正在考虑这样的正则表达式:

\\x.*[0-9]

最佳答案

特殊字符实际上不是多个字符长,这就是它们的表示方式,因此您的正则表达式将不起作用。如果您print,您将看到实际的 unicode (utf-8) 字符

>>> s = 'WHAT\xe2\x80\x99S UP DOC?'
>>> print(s)
WHATâS UP DOC?
>>> repr(s)
"'WHATâ\\x80\\x99S UP DOC?'"

如果你只想打印 ascii 字符,你可以检查字符是否在 string.printable

>>> import string
>>> ''.join(i for i in s if i in string.printable)
'WHATS UP DOC?'

关于python - 如何从python中的字符串中删除特殊字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32080712/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com