Python 的正则表达式模块 : repeating 'backreferences' does not appear to work correctly-6ren

Python 的正则表达式模块 : repeating 'backreferences' does not appear to work correctly

转载作者：太空宇宙更新时间：2023-11-03 11:48:27

27

4

注意:我正在使用 PyPi 替代正则表达式模块

我有一个 python 程序，我在其中寻找以逗号分隔的特定格式的重复标签。

格式为:(*words...* #*number*)

例如:Trial #1、Trial #2、Run #3 和 Spring trial #13 都符合格式。

我在原始字符串中使用:([\w ]*#\d\d?,)\1* 作为我的正则表达式模式。

在 java 和各种正则表达式测试引擎中，在字符串上使用带有此模式的 findall():

Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #3,Run #3,Run #3,Run #3,Run #3,Run #3,Run #3, (...

...) Run #20,Run #20,Run #20,Run #20,Run #20,Run #20,Run #20

返回:

match 1: Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,

match 2: Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,

...etc.

但在 python 中，它返回:

match 1: Run #1,

match 2: Run #2,

...etc.

我希望它返回第一个结果(由 java 和其他程序的正则表达式返回的结果)

关于 python 的正则表达式引擎，有什么我忽略的地方吗？为什么我会得到这个结果？

我的代码是:

import regex

file = open('Pendulum Data.csv',mode='r')
header1 = file.readline()
header2 = file.readline()

pattern1 = regex.compile(r'([\w ]*#\d\d?)\1*',flags=regex.V0)
header1Match = pattern1.findall(header1)
for x in header1Match:
    print(x)

for循环和print语句是为了查看结果。

(这让我想到了另一个问题:regex.findall() 究竟返回了什么？findall() 是否在我打印结果时返回了我想要的内容错了吗？)

...是的，我正在为我的模式使用原始字符串。

最佳答案

您正在正则表达式中使用捕获组。如果在模式中指定了捕获组，则 Python .finall 返回捕获文本的元组。因此，您正在寻找一个 .finditer 函数。

参见 Python re.finditer documentation :

Return an iterator yielding MatchObject instances over all non-overlapping matches for the RE pattern in string. The string is scanned left-to-right, and matches are returned in the order found. Empty matches are included in the result unless they touch the beginning of another match.

和re.findall :

Return all non-overlapping matches of pattern in string, as a list of strings. The string is scanned left-to-right, and matches are returned in the order found. If one or more groups are present in the pattern, return a list of groups; this will be a list of tuples if the pattern has more than one group.

这是一个small demo使用 re.finditer:

import re
p = re.compile(r'([\w ]*#\d\d?,)\1*')
test_str = "Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #3,Run #3,Run #3,Run #3,Run #3,Run #3,Run #3, (..."
print [x.group() for x in p.finditer(test_str)]

结果:

['Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,Run #1,', 'Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,Run #2,', 'Run #3,Run #3,Run #3,Run #3,Run #3,Run #3,Run #3,']

Casimir 是对的，对于如此简单的正则表达式，您可以使用正则 re 模块。

关于Python 的正则表达式模块 : repeating 'backreferences' does not appear to work correctly，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33702003/

27

4

0

文章推荐： C#:RadioButtonList 中的数据库为空

文章推荐： MySQl - AVG ( AVG IF) & 分组依据

文章推荐： python - 使用国际字符匹配 Firstname Lastname 表单上的名称

文章推荐： mysql - 为什么我会收到语法错误或访问冲突？

java - SQL 连接悬空 : Where am I not correctly closing up connections correctly?
我正在构建一个基本的 Java 应用程序来将一些文件加载到 mysql 数据库中。我能够毫无问题地加载文件并填充我的表。然而，在与审查我的代码的人交谈后，我显然没有正确关闭我的连接并浪费资源。我在
c++ - 构建依赖于非 const-correct 库的 const-correct (C++) 库
我正在用 C++ 构建一个库(主要是为了好玩)，我已经研究了一段时间(多年，哈哈，这只是一种爱好) 我最近将一些基础(阅读、库依赖)切换到了另一个库。不幸的是，该库根本不关心“const-correc
c++ - DirectX/C++ : Texture Coordinates not "correct" in-engine correctly after Obj export
如果我绘制单个平面，则纹理坐标会正确映射。 (4 Verts, 4 TC, 6 Indices(2 polys)) 即使它被 segmentation ，(9 Verts, 9 TC, 27 Indi
.net - Azure WindowsCryptographicException : The specified network password is not correct when publishing despite correct password
我正在从文件系统上的 pfx 加载 x509 证书 new X509Certificate2(@"Resources\certificate.pfx", "Password123") 在本地，这工作正
jsf-2 - h :form rendered correctly, 但 h :commandLink doesn't get rendered correctly. 我必须在链接上单击两次
我知道这个问题被问了一遍又一遍。我确实喜欢在与此相关的所有问题中提出建议，并且我在 this question that I put 中做了 BalusC 的操作。告诉我，我还没有成功。所以网络应
php - CakePHP : Incrementing correctly based on last value in DB table (check for correct number base)
简而言之，我正在制作一个预订应用程序。预订 ID 需要从 10000 开始，并在每次新预订时增加 1。我已经开始编写生成此预订编号的方法。我正在努力的是: 第一次运行时，不会有预订编号，所以我不能简
correctness - 如何第一时间写出正确的代码？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
PHP 开关语句 : is this correct?
我查看了 php.net 上的 switch 文档，据我所知，它检查了 switch 和 case 中的变量之间的相等性比较。但是，以下代码似乎适用于所有可能的值(int、null、数组、其他): $
junit - "correct"这组JUnit测试的写法是什么？
我正在为以多种方式创建和作用于实体的服务编写 JUnit 测试。我希望我的测试能够尝试多种不同的事件组合。我有这样的东西: test1() { /** create entity **/ /** as
delphi - "correct"在Delphi中定义快捷方式的方法是什么？
关于如何在 Delphi 程序中定义 ShortCut 的示例有很多，但是它们归结为两种不同的方式: 将任意 scCtrl、scShift 和 scAlt 常量添加到键的 Ord() 使用 Menus
javascript - Javascript对象和继承的首次尝试: is it correct
我正在尝试学习如何在 Javascript 中创建类以及如何执行对象继承。我已经遵循了一些教程，但我不确定我的代码是否正确。我是否正确创建了公共(public)函数和属性？如果不是，我应该改变什么？
javascript - "Correct"使用JQuery访问表单元素值的方法
任何写过 javascript/jquery 的人都知道，有很多不同的方法可以做同样的事情。我目前正在尝试通过表单提交和 AJAX 请求向服务器发送一些数据，我想知道执行此操作的“正确”方法是什么。
error-correction - 单字节纠错
一条 200 字节的消息有一个随机字节损坏。修复损坏字节的最有效方法是什么？ A Hamming(255,247)代码有 8 个字节的开销，但实现起来很简单。 Reed-Solomon error
c++ - 如何制作未定义的移位 “correct”
在C++中，将n -bit整数移位n是未定义的行为: std::uint64_t v = 1; v = v = 64 ? 0 : v > 6; uint64_t mask = (!!temp)
java - 使用鼠标事件 : Am I doing this correctly?
我对 MouseEvents 和 MouseListeners 非常陌生，最近我问了一个关于创建篮球投篮图表的问题。到目前为止我所拥有的是这个 import javax.swing.*; im
代码厨师 : Correct approach or not?
http://www.codechef.com/OCT14/problems/PRLADDU 这是当前的运行比赛。我不想要它的答案，只是让我知道我的方法是否正确。我遵循的方法是按交换方式添加人和恐
python - "Correct"在python网站中存储postgres密码的方法
我正在用 Python(在 Linux 系统上的 Apache 服务器上)编写一个需要连接到 Postgres 数据库的 Web 应用程序。因此，它需要数据库服务器的有效密码。在我的 Python 文
javascript - 单选按钮选择时显示 "Correct"
我对 JS 和 HTML5 有点陌生。我正在创建一个简单的测验，只是为了好玩。我知道需要使每个问题都能够独立于其他问题而被标记为“正确”。我如何通过 JS，甚至 CSS/HTML5 来做到这一点？我感
javascript - "correctly"如何创建一个继承自Element的对象？
我正在编写一个涉及大量 XML 操作的 HTML5 应用程序，其中部分操作涉及比较两个不同 XML 元素的版本。我需要的是每个 Element、Attr 和 TextNode(所有这些都继承自 No
java - 'correct' 实例化JPA管理器bean的方法？
我正在使用 IBM RAD 开发一些 JPA 实体，并从中开发相应的 JPA Manager Bean。管理器 bean(由 RAD 生成)具有以下成员: @PersistenceUnit priva

首页

博学

6Ren·AI

商城

Python 的正则表达式模块 : repeating 'backreferences' does not appear to work correctly