gpt4 book ai didi

python - 如何从列表中删除 '\xe2'

转载 作者:太空狗 更新时间:2023-10-29 20:32:27 26 4
gpt4 key购买 nike

我是 python 的新手,我正在使用它在我的项目中使用 nltk。在对从网页获得的原始数据进行单词标记后,我得到了一个包含 '\xe2'、'\xe3'、'\x98' 等的列表.但是我不需要这些并且想删除它们。

我试过了

if '\x' in a

if a.startswith('\xe')

它给了我一个错误说 invalid\x escape

但是当我尝试正则表达式时

re.search('^\\x',a)

我明白了

Traceback (most recent call last):
File "<pyshell#83>", line 1, in <module>
print re.search('^\\x',a)
File "C:\Python26\lib\re.py", line 142, in search
return _compile(pattern, flags).search(string)
File "C:\Python26\lib\re.py", line 245, in _compile
raise error, v # invalid expression
error: bogus escape: '\\x'

甚至 re.search('^\\x',a) 也没有识别它。

我对此感到困惑,即使谷歌搜索也无济于事(我可能遗漏了一些东西)。请提出任何从列表中删除此类字符串的简单方法以及上面的问题。

提前致谢!

最佳答案

您可以使用 unicode(a, 'ascii', 'ignore') 一次删除字符串中的所有非 ascii 字符。

关于python - 如何从列表中删除 '\xe2',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3328995/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com