gpt4 book ai didi

python - 为 Python2 和 Python3 编写 unicode 正则表达式

转载 作者:太空宇宙 更新时间:2023-11-03 11:44:07 25 4
gpt4 key购买 nike

我可以在 Python2 中使用 ur'something're.U 标志来编译正则表达式模式,例如:

$ python2
Python 2.7.13 (default, Dec 18 2016, 07:03:39)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> pattern = re.compile(ur'(«)', re.U)
>>> s = u'«abc «def«'
>>> re.sub(pattern, r' \1 ', s)
u' \xab abc \xab def \xab '
>>> print re.sub(pattern, r' \1 ', s)
« abc « def «

在 Python3 中,我可以避免 u'something' 甚至 re.U 标志:

$ python3
Python 3.5.2 (default, Oct 11 2016, 04:59:56)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.38)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> pattern = re.compile(r'(«)')
>>> s = u'«abc «def«'
>>> print( re.sub(pattern, r' \1 ', s))
« abc « def «

但目标是编写支持 Python2 和 Python3 的正则表达式。在 Python3 中执行 ur'something' 会导致语法错误:

>>> pattern = re.compile(ur'(«)', re.U)
File "<stdin>", line 1
pattern = re.compile(ur'(«)', re.U)
^
SyntaxError: invalid syntax

因为这是一个语法错误,即使在声明模式之前检查版本在 Python3 中也不起作用:

>>> import sys
>>> _pattern = r'(«)' if sys.version_info[0] == 3 else ur'(«)'
File "<stdin>", line 1
_pattern = r'(«)' if sys.version_info[0] == 3 else ur'(«)'
^
SyntaxError: invalid syntax

如何对正则表达式进行 unicode 以同时支持 Python2 和 Python3?


虽然 r' ' 可以很容易地替换为 u' ' 在这种情况下通过删除文字字符串。

为了理智起见,有些复杂的正则表达式需要 r' ',例如

re.sub(re.compile(r'([^\.])(\.)([\]\)}>"\'»]*)\s*$', re.U), r'\1 \2\3 ', s)

因此解决方案应该包括文字字符串 r' ' 用法,除非有其他方法可以解决它。但请注意,使用字符串文字或 unicode_literals 或来自 __future__ 是不受欢迎的,因为它会导致大量其他问题,尤其是。在我使用的代码库的其他部分,请参阅 http://python-future.org/unicode_literals.html

出于特定原因,代码库不鼓励 unicode_literals 导入但使用 r' ' 表示法是因为填充它并对它们中的每一个进行更改将非常痛苦,例如

最佳答案

你真的需要原始字符串吗?对于您的示例,需要一个 unicode 字符串,但不需要原始字符串。原始字符串很方便,但不是必需的 - 只需将您将在原始字符串中使用的任何 \ 加倍并使用纯 unicode。

Python 2 允许将原始字符串与 unicode 字符串连接(生成 unicode 字符串),因此您可以使用 r'([^\.])(\.)([\]\)}> "\'' u'»' r']*)\s*$'
在 Python 3 中,它们都是 unicode,因此也可以。

关于python - 为 Python2 和 Python3 编写 unicode 正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43359559/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com