- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我与 Czech 一起工作Python 3.4 中的重音文本。
调用 re.sub()
用正则表达式对重音句子进行替换效果很好,但使用用 re.compile()
编译的正则表达式然后调用regex.sub()
失败。
在这种情况下,我对 re.sub()
使用相同的参数和 regex.sub()
import re
pattern = r'(?<!\*)(Poplatn[ií]\w+ da[nň]\w+)'
flags = re.I|re.L
compiled = re.compile(pattern, flags)
text = 'Poplatníkem daně z pozemků je vlastník pozemku'
mark = r'**\1**' # wrap 1st matching group in double stars
print(re.sub(pattern, mark, text, flags))
# outputs: **Poplatníkem daně** z pozemků je vlastník pozemku
# substitution works
print(compiled.sub(mark, text))
# outputs: Poplatníkem daně z pozemků je vlastník pozemku
# substitution fails
我相信原因是重音,因为对于一个没有重音的句子 re.sub()
和 regex.sub()
工作相同。
但在我看来这像是一个错误,因为传递相同的参数会返回不同的结果,这是不应该发生的。本主题因不同的平台和语言环境而变得复杂,因此它可能无法在您的系统上重现。这是我的控制台的屏幕截图。
您是否发现我的代码有任何错误,或者我应该将其报告为错误?
最佳答案
作为Padraic Cunningham figured out ,这实际上不是错误。
但是,它与您没有遇到的错误有关,并且您使用了您可能不应该使用的标志,所以我将在下面留下我之前的回答,即使他是您问题的正确答案。
有一个最近的变化(介于 3.4.1 和 3.4.3 之间,以及介于 2.7.3 和 2.7.8 之间)影响了这一点。在此更改之前,您甚至无法在不引发 OverflowError
的情况下编译该模式。
更重要的是,你为什么要使用 re.L
? re.L
机制并不意味着“为我的语言环境使用 Unicode 规则”,它意味着“使用一些未指定的非 Unicode 规则,这些规则只对 Latin-1 派生的语言环境有意义,可能不会在 Windows 上工作”。或者,作为 the docs把它:
Make
\w
,\W
,\b
,\B
,\s
and\S
dependent on the current locale. The use of this flag is discouraged as the locale mechanism is very unreliable, and it only handles one “culture” at a time anyway; you should use Unicode matching instead, which is the default in Python 3 for Unicode (str) patterns.
参见 bug #22407以及链接的 python-dev 线程,用于最近对此的一些讨论。
如果我删除 re.L
标志,代码现在可以在 3.4.1 上正常编译。 (我在 3.4.1 和 3.4.3 上也得到了“正确”的结果,但这只是一个巧合;我现在故意不通过 screwy flag 并在第一个版本中搞砸了,而且仍然不小心没有通过扭曲的标志并在第二个把它搞砸了,所以他们匹配......)
因此,即使这是一个错误,它也很有可能会被 WONTFIX 关闭。 #22407 的决议是在 3.5 中针对非 bytes
模式弃用 re.L
并在 3.6 中将其删除,所以我怀疑有人会关心用它修复错误现在。 (更不用说 re
本身在理论上是支持 regex
这几十年之一......和 IIRC,regex
也弃用了 L
标记,除非您使用的是 bytes
模式和 re
兼容模式。)
关于python - regex.sub() 给出与 re.sub() 不同的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29602177/
我在产品类别和子类别网站上工作,可以创建的子类别数量是无限的,这意味着我们可以自己拥有子类别的子类别。一切正常,我只是有一个问题:假设“PRODUCT 1”属于“SUB SUB CATEGORY 1”
我正在学习OCaml,并在代码2022的到来中努力工作。。但似乎读取input.txt文件会导致一些问题。。我收到了这个奇怪的错误,它来自于函数分数。尤其是那个叫得分手HD的表达。不过,当我手动将LI
我有一个奇怪的行为(对于 Python 程序员)子例程,它简化如下: use strict; use Data::Dumper; sub a { my @x; sub b { push @x,
在此页上 http://bit.ly/T3yJIH , drupal 的 Nice Menu 模块不能正确显示子子菜单。如果转到菜单中的第一项,然后转到子菜单中的第一项,就可以看到它。 (Facili
我需要在我的站点内创建一个子结构,我在其中拥有: 实际上我是通过 Javascript 来完成的(伪代码):SUB_Content.height = ParentDiv.height - Sub_He
我有一个与子菜单一起使用的 CSS 手册。我想知道如何向它添加子子菜单。例如,我将鼠标悬停在主菜单项上并弹出子菜单,然后我将鼠标悬停在子菜单项上并弹出另一个子菜单。这是我现在使用的 JS Fiddle
我有一个关于 navmenu 的问题我不能选择导航菜单的 sub sub ul,如果我会做什么它会影响 3.ul。这是一个 wordpress 菜单我没有机会使用类或菜单的 ID。提前感谢您的帮助。
我创建了一个带有 2 级子菜单的简单导航。我正在寻找“sub sub”选项以显示在其父项的右侧而不是下方。对于 CSS 的任何帮助,我将不胜感激。下面是 html 和 css 以及 JS fiddle
我对 VBA、这个论坛和编程很陌生。我有一个工作表,我已经设法根据我的要求谷歌并调整某些代码行。 我的问题是我总共有三个潜艇,必须逐步运行每个 VBA 脚本。我希望将所有三个 VBA 脚本合二为一。
我使用 sub 调用作为另一个 sub 的参数。示例代码: test(isInString(), 'second parameter', 'third parameter'); sub test {
我想使用 HTML ui->FresBox->setText("fres"); 但它在 QCheckbox 中不起作用。如果您使用标签,它会很好用。有什么不同以及如何在 QCheckbox 中使用 H
我没有遇到这个问题,但在处理相关问题时想到了这个问题。让我们: logging = 'something' # bad naming decision import logging as lg
我正在查看 Redis pubsub,消费者是 2-4 节点自动缩放组的一部分(HA 原因) 也许我遗漏了一些明显的东西,但是 Redis pubsub 中是否有某种机制可以管理订阅者/消费者收到的重
对你们来说应该是一个快速和简单的,为什么这不起作用? 代码限制用户只能在文本框中输入文本。 它工作正常,但我有大约 50 个文本框,所以会更干净,更容易调用。 但是,这样做,限制不再起作用 Priva
(编辑)TL; DR :我的问题是,尽管Win32 API定义的是真实的整数常量(如平台SDK header 中一样),而Win32 Perl包装器将它们定义为subs。从而引起一线解析的误解。 在单
我有一个使用 Jersey 实现 REST API 的 Web 应用程序。 Web 容器 id Tomcat 以下是 API 的摘要: /rest/patients 获取患者元数据列表。 /rest/
我与 Czech 一起工作Python 3.4 中的重音文本。 调用 re.sub()用正则表达式对重音句子进行替换效果很好,但使用用 re.compile() 编译的正则表达式然后调用regex.s
对于我的一个新项目,我必须创建一个包含主类别、子类别和子子类别的类别页面。例如; 互联网 互联网 > 发展 互联网 > 开发 > 移动应用 在此类别中,您可以找到有关这些内容的网站。我必须为每个网站提
表1 - 客户数据 c_id(整数) 名称(varchar) 表2 - account_data a_id(整数) c_id (int) -> 使用customer_data。c_id plan_id
我有一些位图文件(jpeg、png、...),我想编写一个 C++ 程序,将这些位图文件连接到 pes 流(mpeg-2 格式),然后创建一个子文件(.sub/. idx:vobsub 字幕文件)。
我是一名优秀的程序员,十分优秀!