- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在使用 python 和正则表达式进行一些文本规范化。我想用'you'代替所有'u'或'U'。这是我到目前为止所做的:
import re
text = 'how are u? umberella u! u. U. U@ U# u '
print re.sub (' [u|U][s,.,?,!,W,#,@ (^a-zA-Z)]', ' you ', text)
我得到的输出是:
how are you you berella you you you you you you
如您所见,问题在于“umberella”已更改为“berella”。我也想保留出现在“u”之后的字符。例如,我想要“你!”改为“你!”。谁能告诉我我做错了什么以及编写正则表达式的最佳方法是什么?
最佳答案
首先,为什么您的解决方案不起作用。你混淆了很多概念。主要是character class与其他人。在第一个字符类中,您使用源自 alternation 的 |
.在字符类中,您不需要管道。只需列出您想要的所有字符(和字符范围):
[Uu]
如果您使用不区分大小写的修饰符,则只需编写 u
。如果你在那里写一个管道,字符类实际上会匹配你的主题字符串中的管道。
现在在第二个字符类中,出于某种奇怪的原因,您使用逗号分隔字符。除了在可匹配字符中包含逗号之外,这也无济于事。 s
和 W
可能应该是内置字符类。然后逃离他们!否则它们只会匹配文字 s
和文字 W
。但是 \W
已经包含了您在此处列出的所有其他内容,因此单独的 \W
(不带方括号)就足够了。最后一部分 (^a-zA-Z)
也不起作用,因为它只会包含 ^
, (
, )
并将所有字母放入字符类。否定语法仅适用于整个字符类,例如 [^a-zA-Z]
。
你真正想要的是断言你的 u
前后没有字母。您可以使用lookarounds为了那个原因。优点是它们不会被包含在匹配中,因此不会被删除:
r'(?<![a-zA-Z])[uU](?![a-zA-Z])'
请注意,我使用的是原始字符串。通常是正则表达式的好习惯,以避免转义序列出现问题。
这些是负面的环视方法,可确保您的 u
之前或之后没有字母字符。这是断言周围有一个非字母字符(这与您所做的类似)的一个重要区别,因为后一种方法在字符串的开头或结尾不起作用。
当然,您可以从替换字符串中删除 you
周围的空格。
如果您不想替换数字旁边的 u
,您可以轻松地将数字包含到字符类中:
r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'
如果由于某种原因相邻的下划线也会使您的 u
无法替换,您也可以将其包括在内。但随后字符类与内置的 \w
:
r'(?<!\w)[uU](?!\w)'
在这种情况下,它相当于 EarlGray 的 r'\b[uU]\b'
。
如上所述,您可以通过使用不区分大小写的修饰符来缩短所有这些。以第一个表达式为例:
re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)
或
re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)
取决于你的喜好。
我建议您阅读我在此答案中多次链接的教程。这些解释非常全面,应该让您在正则表达式方面有一个良好的开端,您可能迟早会再次遇到。
关于Python re.sub() : how to substitute all 'u' or 'U' s with 'you' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13748674/
我想显示阿拉伯文字,但字符 المملك 显示。 例如,在 المملكة العربية السعودية 上显示单词 المملك٩ ا
我的应用程序正在 java + MSSQL 和 MySQL 上运行。下面的查询适用于 MSSQL,但不适用于 MySql。在 mysql 中,当我编写如下查询时,它给出了错误的结果 查询 select
根据 is_destructible 的定义( http://eel.is/c++draft/meta.unary.prop#lib:is_destructible ), is_destructib
我有一个数据库表,其中有一列我对波斯字母进行了分类,以便稍后使用 MySQL WHERE 选择。一切都适用于所有字母,但我在选择在数据库中存储为 (Ù†) 的字母 (?) 和存储为 (Ú†) 的 (?
我知道像这样的可选链接: someOptional?.someProperty 基本上是 someOptional.map { $0.someProperty } 但是,我发现同时做这两件事是不可能的
u-boot配置文件中的以下配置我看不懂 CONFIG_SYS_EXTRA_OPTIONS="SYS_SDRAM_SIZE=0x20000000" 好像在 u-boot 代码中设置 DRAM 大小。但
我对以下两个方法声明感到困惑: private T funWorks(T child, U parent) { // No compilation errors }
给定如下 API: class Bar { ... } class Foo extends Bar { ... } 在 Java 的 Optional 类型中,我们可以说: Optional fooO
我有一个文件,每行有两个字符: $ cat roman Ⅱ Ⅲ nut 当我用 sort -u 对这个文件进行排序时,只显示一行: $ sort -u roman Ⅱ Ⅱ是代码点U+2161,Ⅲ是代码
我正在尝试将 C 数组分配给 C++ std::array。 我该如何做到这一点,最干净的方式并且不制作不需要的拷贝等? 什么时候做 int X[8]; std::array Y = X; 我得到一个
我有以下案例类: case class [Q Length[T] 但是,我收到一条错误消息,说 需要三个参数,而我只给出了两个。我希望它像这样工作: type Area[T] = [Length[T
它是 well documented那个[T; n]可以强制到[T] .下面的代码也是well-formed : fn test(){ let _a: &[i32] = &[1, 2, 3];
我正在尝试使用 tweepy 在 Tkinter 窗口上显示我的 Twitter 时间线。这是代码 import tweepy import tkinter consumer_key = 'xxxxx
我正在使用以下包含 letter ü 的文本片段: test für fur test 代码如下: import re for m in re.finditer(r, line, re.IGNOREC
我对 USQL 很陌生,想知道如何在 select 语句中将“日期时间”转换为“日期”。另外,我如何摆脱毫秒和上午/下午?我真的很感激这方面的任何帮助。谢谢你们。 最佳答案 下面是有效的代码。注意括号
在 U-SQL 自定义代码(代码隐藏或程序集)中可以调用外部服务,例如bing搜索或 map 。 谢谢, 纳西尔 最佳答案 由于以下原因,目前不支持此功能: 想象一下,您编写了一个 UDF 或 UDO
我想 ping 出多个以太网端口。 u-boot 仅支持单个以太网端口是否存在固有限制? 最佳答案 Can u-boot support more than one ethernet port? 是的
我最近开始学习Prolog,但无法解决如何将三个列表合并的问题。 我能够合并两个列表: %element element(X,[X|_]). element(X,[_|Y]):-
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我是一名优秀的程序员,十分优秀!