gpt4 book ai didi

python - 正则表达式 python 与 unicode(日语)字符问题

转载 作者:太空狗 更新时间:2023-10-30 00:54:57 28 4
gpt4 key购买 nike

我想删除下面的字符串的一部分(以粗体显示),这存储在字符串 oldString

[DMSM-8433] 加护依依 Kago Ai – 加护依依 vs. FRIDAY

我在 python 中使用以下正则表达式

p=re.compile(ur"( [\W]+) (?=[A-Za-z ]+–)", re.UNICODE)
newString=p.sub("", oldString)

当我输出 newString 时,没有任何内容被删除

最佳答案

您可以使用以下代码片段来解决问题:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
str = u'[DMSM-8433] 加護亜依 Kago Ai – 加護亜依 vs. FRIDAY'
regex = u'[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]+ (?=[A-Za-z ]+–)'
p = re.compile(regex, re.U)
match = p.sub("", str)
print match.encode("UTF-8")

参见 IDEONE demo

# -*- coding: utf-8 -*- 声明旁边,我添加了 @nhahtdh's character class to detect Japanese symbols

请注意,匹配 需要“手动”编码为 UTF-8 字符串,因为需要“提醒”Python 2 我们一直在使用 Unicode。

关于python - 正则表达式 python 与 unicode(日语)字符问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32863608/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com