gpt4 book ai didi

python - Python 上的正则表达式在使用 char 类时打印垃圾

转载 作者:太空宇宙 更新时间:2023-11-04 01:10:43 24 4
gpt4 key购买 nike

python 2.7

我正在处理一个 utf-8 编码的文件(希腊语),似乎 regex 有一些问题。

Regex 在我不使用 char 类时似乎工作正常。当我这样做时:

        text = re.sub('αυ','kk',text,flags=re.UNICODE)

一切正常,例如“αυτιì”将转换为“kkτιì”。

但是,当我想像这样使用 char 类时:

        text = re.sub('αυ[τ]','kk',text,flags=re.UNICODE)

显示垃圾字符,'αυτιì' 被转换为 'kk�ia'。是编码问题还是我的 regex 有问题?打扰一下,我对 regex 的心态还很陌生。

谢谢!

最佳答案

传递 unicode 对象而不是字符串:

>>> print re.sub('αυ[τ]', 'kk', 'αυτιά', flags=re.UNICODE)
kk▒ιά
>>> print re.sub(u'αυ[τ]', u'kk', u'αυτιά', flags=re.UNICODE)
kkιά

关于python - Python 上的正则表达式在使用 char 类时打印垃圾,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27882701/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com