gpt4 book ai didi

Python re.sub() : how to substitute all 'u' or 'U' s with 'you'

转载 作者:IT老高 更新时间:2023-10-28 21:32:44 25 4
gpt4 key购买 nike

我正在使用 python 和正则表达式进行一些文本规范化。我想用'you'代替所有'u'或'U'。这是我到目前为止所做的:

import re
text = 'how are u? umberella u! u. U. U@ U# u '
print re.sub (' [u|U][s,.,?,!,W,#,@ (^a-zA-Z)]', ' you ', text)

我得到的输出是:

how are you  you berella you  you  you  you  you  you

如您所见,问题在于“umberella”已更改为“berella”。我也想保留出现在“u”之后的字符。例如,我想要“你!”改为“你!”。谁能告诉我我做错了什么以及编写正则表达式的最佳方法是什么?

最佳答案

首先,为什么您的解决方案不起作用。你混淆了很多概念。主要是character class与其他人。在第一个字符类中,您使用源自 alternation| .在字符类中,您不需要管道。只需列出您想要的所有字符(和字符范围):

[Uu]

如果您使用不区分大小写的修饰符,则只需编写 u。如果你在那里写一个管道,字符类实际上会匹配你的主题字符串中的管道。

现在在第二个字符类中,出于某种奇怪的原因,您使用逗号分隔字符。除了在可匹配字符中包含逗号之外,这也无济于事。 sW 可能应该是内置字符类。然后逃离他们!否则它们只会匹配文字 s 和文字 W。但是 \W 已经包含了您在此处列出的所有其他内容,因此单独的 \W (不带方括号)就足够了。最后一部分 (^a-zA-Z) 也不起作用,因为它只会包含 ^, (, ) 并将所有字母放入字符类。否定语法仅适用于整个字符类,例如 [^a-zA-Z]

你真正想要的是断言你的 u 前后没有字母。您可以使用lookarounds为了那个原因。优点是它们不会被包含在匹配中,因此不会被删除:

r'(?<![a-zA-Z])[uU](?![a-zA-Z])'

请注意,我使用的是原始字符串。通常是正则表达式的好习惯,以避免转义序列出现问题。

这些是负面的环视方法,可确保您的 u 之前或之后没有字母字符。这是断言周围有一个非字母字符(这与您所做的类似)的一个重要区别,因为后一种方法在字符串的开头或结尾不起作用。

当然,您可以从替换字符串中删除 you 周围的空格。

如果您不想替换数字旁边的 u,您可以轻松地将数字包含到字符类中:

r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'

如果由于某种原因相邻的下划线也会使您的 u 无法替换,您也可以将其包括在内。但随后字符类与内置的 \w:

不谋而合
r'(?<!\w)[uU](?!\w)'

在这种情况下,它相当于 EarlGray 的 r'\b[uU]\b'

如上所述,您可以通过使用不区分大小写的修饰符来缩短所有这些。以第一个表达式为例:

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)

取决于你的喜好。

我建议您阅读我在此答案中多次链接的教程。这些解释非常全面,应该让您在正则表达式方面有一个良好的开端,您可能迟早会再次遇到。

关于Python re.sub() : how to substitute all 'u' or 'U' s with 'you' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13748674/

25 4 0