gpt4 book ai didi

regex - 如何在 Python 3.2 正则表达式中指定西里尔字符范围?

转载 作者:行者123 更新时间:2023-12-04 05:33:07 25 4
gpt4 key购买 nike

曾几何时,我发现this question有趣的。

今天我决定玩弄那本书的文字。

我想在这个脚本中使用正则表达式。当我在西里尔文字上使用脚本时,它会清除所有西里尔字符,只留下标点符号和空格。

#!/usr/bin/env python3.2
# coding=UTF-8

import sys, re

for file in sys.argv[1:]:
f = open(file)
fs = f.read()
regexnl = re.compile('[^\s\w.,?!:;-]')
rstuff = regexnl.sub('', f)
f.close()
print(rstuff)

this answer 中已经做了一些非常相似的事情。 .

基本上,我只想能够指定一组不是字母、字母数字、标点符号或空格的字符。

最佳答案

这并不能完全回答您的问题,而是 regex module比内置的 re 有更好的 unicode 支持模块。例如regex支持\p{Cyrillic}属性及其否定\P{Cyrillic} (以及大量的 other unicode properties )。此外,它正确处理 unicode 不区分大小写。

关于regex - 如何在 Python 3.2 正则表达式中指定西里尔字符范围?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10981258/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com