- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何在 pyparsing 中使用以下正则表达式?它应该返回给定正则表达式的 token 列表。
任何帮助将不胜感激!谢谢!
shell 中的 python 正则表达式示例:
>>> re.split("(\w+)(lab)(\d+)", "abclab1", 3)
>>> ['', 'abc', 'lab', '1', '']
我在 pyparsing 中试过这个,但我似乎无法弄清楚如何让它正确,因为第一个匹配是贪婪的,即第一个标记将是 'abclab'
而不是两个标记 'abc'
和 'lab'
。
pyparsing 示例(高级,即非工作代码):
name = 'abclab1'
location = Word(alphas).setResultsName('location')
lab = CaselessLiteral('lab').setResultsName('environment')
identifier = Word(nums).setResultsName('identifier')
expr = location + lab + identifier
match, start, end = expr.scanString(name).next()
print match.asDict()
最佳答案
Pyparsing 的类几乎是从左到右的,前瞻使用显式表达式实现,例如 FollowedBy(用于正前瞻)和 NotAny 或“~”运算符(用于负前瞻)。这允许您检测通常会匹配正在重复的项目的终止符。例如,OneOrMore(Word(alphas)) + Literal('end')
永远不会在“start blah blah end”这样的字符串中找到匹配项,因为终止的“end”会被吞没OneOrMore 中的重复表达式。解决方法是在重复的表达式中添加否定前瞻:OneOrMore(~Literal('end') + Word(alphas)) + Literal('end')
- 也就是说,在阅读另一个单词之前由 alpha 组成,首先确保它不是“end”这个词。
当重复出现在 pyparsing 类(如 Word)中时,这会崩溃。 Word(alphas)
将继续读取字母字符,只要没有空格来停止单词。你将不得不使用一些非常昂贵的东西来打破这种重复,比如 Combine(OneOrMore(~Literal('lab') + Word(alphas, exact=1)))
- 我说昂贵是因为组合使用复杂 Combine 表达式的简单标记会导致解析器变慢。
您可以通过使用包装在 pyparsing Regex 对象中的正则表达式来妥协:
>>> labword = Regex(r'(\w+)(lab)(\d+)')
>>> print labword.parseString("abclab1").dump()
['abclab1']
这会进行正确的分组和检测,但不会暴露组本身。为此,向每个组添加名称 - pyparsing 会将这些名称视为结果名称,并让您访问各个字段,就像您调用了 setResultsName 一样:
>>> labword = Regex(r'(?P<locn>\w+)(?P<env>lab)(?P<identifier>\d+)')
>>> print labword.parseString("abclab1").dump()
['abclab1']
- env: lab
- identifier: 1
- locn: abc
>>> print labword.parseString("abclab1").asDict()
{'identifier': '1', 'locn': 'abc', 'env': 'lab'}
我能想到的唯一其他非正则表达式方法是定义一个表达式来读取整个字符串,然后在解析操作中分解各个部分。
关于pyparsing中的python正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11116336/
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词?或者这只是排序解析表达式的同义词?在这种情况下,它应该等同于 And 类。对吗? Not
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。 每个嵌套括号元素由条 | 连接字面量导致创建一个新序列,该序列将先前的序列元
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔,交替由逗号表示。我被困在字符串的第一部分,括号内有一个空格
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
所以我在制作解析器时,发现了一个问题。事实上,为了解析数字,我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如,
我有一个简单的数据集,可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
我正在尝试使用 pyparsing 来构建一个解析器,该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析,看来这确实可以帮助解析器提高性能。但是,当我启用packrat解析时,性能会变差!如果没有packra
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
我编写此脚本是为了使用类似于序言的语法来解析语句,将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
我有一个来自游戏的文件,我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而,“\”也可用作续行(参见例 2)。 Ex1 工作正常,但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
我正在尝试学习 pyparsing。这听起来很有希望,并且用于文本处理会很有趣。无论如何,这是我的问题: 我有一个类(class)名称列表。例如, courselist = ["Project Bas
我想利用 cStyleComment 变量,但我想专门处理它们,而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序,然后再将其丢弃吗? 我正在处
我今天早些时候发布了一个关于同一问题的问题,但由于该问题的解决方案是切换库,而我现在对另一个库有问题,我想我会提出另一个问题......希望没关系。 所以我不想匹配以下标记: ... 我不
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。 我有一个大的配置文件需要解析,其中的“条目”用大括号
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在,在第一次重新启动之前输出可能如下所示: Up
我是一名优秀的程序员,十分优秀!