- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我尝试使用 pyparsing 来解析 robotframework,它是一种基于文本的 DSL。 sytnax 如下(抱歉,我觉得用 BNF 描述它有点困难)。robotframework 中的一行可能如下所示:
Library\tSSHClient with name\tnode
\t是tab,在robotframework中,透传为2""(其实就是调用str.replace('\t', ' ')来替换tab,但是会修改实际每行的长度,len('\t') 为 1 但 len(' ') 为 2.)。 在robot中,2个及以上的空格和'\t'用于分割token,如果单词之间只有1个空格,则认为这些单词是一个token组。
Library\tSSHClient with name\tnode
如果解析正确,实际上会拆分为以下标记:
['Library', 'SSHClient', 'with name', 'node']
由于“with”和“name”之间只有1个空格,所以解析器认为它属于一个组语法标记。
这是我的代码:
ParserElement.setDefaultWhitespaceChars('\r\n\t ')
source = "Library\tSSHClient with name\tnode"
EACH_LINE = Optional(Word(" ")).leaveWhitespace().suppress() + \
CaselessKeyword("library").suppress() + \
OneOrMore((Word(alphas)) + White(max=1).setResultName('myValue')) +\
SkipTo(LineEnd())
res = EACH_LINE.parseString(source)
print res.myValue
问题:
1) 我已经设置了空格,如果我想精确匹配 2 个或更多空格或一个或多个制表符,我认为代码如下: 白色(ws=' ', min=2)|白色(ws='\t', min=1) 但这会失败,所以我无法指定空白值?
2)有没有办法得到匹配的结果索引?我尝试了 setParseAction,但似乎无法通过此回调获取索引。我需要开始和结束索引来突出显示单词。
3) LineStart 和 LineEnd 是什么意思?我打印这些值,看起来它们只是普通的字符串,我是否必须在一行的前面写一些东西,比如: LineStart() + 巴拉巴拉... + LineEnd() ?
谢谢,但是,有一个限制,我不能将'\t'替换为''
from pyparsing import *
source = "Library\tsshclient\t\t\twith name s1"
value = Combine(OneOrMore(Word(printables) | White(' ', max=1) + ~White())) #here it seems the whitespace has already been set to ' ', why the result still match '\t'?
linedefn = OneOrMore(value)
res = linedefn.parseString(source)
print res
我得到了
['Library sshclient', 'with name', 's1']
但我以为 ['库', 'sshclient', '同名', 's1']
最佳答案
当空格进入已解析的标记时,我总是退缩,但由于您的限制是只允许单个空格,这应该是可行的。我使用以下表达式来定义可以嵌入单个空格的值:
# each value consists of printable words separated by at most a
# single space (a space that is not followed by another space)
value = Combine(OneOrMore(Word(printables) | White(' ',max=1) + ~White()))
完成后,一行就是这些值中的一个或多个:
linedefn = OneOrMore(value)
按照您的示例,包括调用 str.replace 以用空格对替换制表符,代码如下所示:
data = "Library\tSSHClient with name\tnode"
# replace tabs with 2 spaces
data = data.replace('\t', ' ')
print linedefn.parseString(data)
给予:
['Library', 'SSHClient', 'with name', 'node']
要获取原始字符串中任何值的开始和结束位置,请将表达式包装在新的 pyparsing 辅助方法 locatedExpr
中:
# use new locatedExpr to get the value, start, and end location
# for each value
linedefn = OneOrMore(locatedExpr(value))('values')
如果我们解析并转储结果:
print linedefn.parseString(data).dump()
我们得到:
- values:
[0]:
[0, 'Library', 7]
- locn_end: 7
- locn_start: 0
- value: Library
[1]:
[9, 'SSHClient', 18]
- locn_end: 18
- locn_start: 9
- value: SSHClient
[2]:
[22, 'with name', 31]
- locn_end: 31
- locn_start: 22
- value: with name
[3]:
[33, 'node', 37]
- locn_end: 37
- locn_start: 33
- value: node
LineStart 和 LineEnd 是 pyparsing 表达式类,其实例应在一行的开头和结尾匹配。 LineStart 一直很难使用,但 LineEnd 是可以预测的。在您的情况下,如果您一次只读取和解析一行,那么您不需要它们 - 只需定义您期望的行的内容。如果你想确保解析器已经处理了整个字符串(并且不会因为不匹配的字符而在末尾停止),添加 + LineEnd()
或 + StringEnd()
到解析器的末尾,或将参数 parseAll=True
添加到对 parseString()
的调用中。
编辑:
很容易忘记 pyparsing 默认调用 str.expandtabs - 你必须通过调用 parseWithTabs 来禁用它。那,并明确禁止值词之间的制表符解决了您的问题,并将值保持在正确的字符数。请参阅以下更改:
from pyparsing import *
TAB = White('\t')
# each value consists of printable words separated by at most a
# single space (a space that is not followed by another space)
value = Combine(OneOrMore(~TAB + (Word(printables) | White(' ',max=1) + ~White())))
# each line has one or more of these values
linedefn = OneOrMore(value)
# do not expand tabs before parsing
linedefn.parseWithTabs()
data = "Library\tSSHClient with name\tnode"
# replace tabs with 2 spaces
#data = data.replace('\t', ' ')
print linedefn.parseString(data)
linedefn = OneOrMore(locatedExpr(value))('values')
# do not expand tabs before parsing
linedefn.parseWithTabs()
print linedefn.parseString(data).dump()
关于python - pyparsing 空格匹配问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26600333/
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词?或者这只是排序解析表达式的同义词?在这种情况下,它应该等同于 And 类。对吗? Not
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。 每个嵌套括号元素由条 | 连接字面量导致创建一个新序列,该序列将先前的序列元
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔,交替由逗号表示。我被困在字符串的第一部分,括号内有一个空格
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
所以我在制作解析器时,发现了一个问题。事实上,为了解析数字,我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如,
我有一个简单的数据集,可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
我正在尝试使用 pyparsing 来构建一个解析器,该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析,看来这确实可以帮助解析器提高性能。但是,当我启用packrat解析时,性能会变差!如果没有packra
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
我编写此脚本是为了使用类似于序言的语法来解析语句,将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
我有一个来自游戏的文件,我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而,“\”也可用作续行(参见例 2)。 Ex1 工作正常,但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
我正在尝试学习 pyparsing。这听起来很有希望,并且用于文本处理会很有趣。无论如何,这是我的问题: 我有一个类(class)名称列表。例如, courselist = ["Project Bas
我想利用 cStyleComment 变量,但我想专门处理它们,而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序,然后再将其丢弃吗? 我正在处
我今天早些时候发布了一个关于同一问题的问题,但由于该问题的解决方案是切换库,而我现在对另一个库有问题,我想我会提出另一个问题......希望没关系。 所以我不想匹配以下标记: ... 我不
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。 我有一个大的配置文件需要解析,其中的“条目”用大括号
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在,在第一次重新启动之前输出可能如下所示: Up
我是一名优秀的程序员,十分优秀!