gpt4 book ai didi

python - pyparsing 空格匹配问题

转载 作者:太空狗 更新时间:2023-10-30 00:02:46 24 4
gpt4 key购买 nike

我尝试使用 pyparsing 来解析 robotframework,它是一种基于文本的 DSL。 sytnax 如下(抱歉,我觉得用 BNF 描述它有点困难)。robotframework 中的一行可能如下所示:

Library\tSSHClient    with name\tnode

\t是tab,在robotframework中,透传为2""(其实就是调用str.replace('\t', ' ')来替换tab,但是会修改实际每行的长度,len('\t') 为 1 但 len(' ') 为 2.)。 在robot中,2个及以上的空格和'\t'用于分割token,如果单词之间只有1个空格,则认为这些单词是一个token组。

Library\tSSHClient    with name\tnode

如果解析正确,实际上会拆分为以下标记:

 ['Library', 'SSHClient', 'with name', 'node']

由于“with”和“name”之间只有1个空格,所以解析器认为它属于一个组语法标记。

这是我的代码:

ParserElement.setDefaultWhitespaceChars('\r\n\t ')
source = "Library\tSSHClient with name\tnode"
EACH_LINE = Optional(Word(" ")).leaveWhitespace().suppress() + \
CaselessKeyword("library").suppress() + \
OneOrMore((Word(alphas)) + White(max=1).setResultName('myValue')) +\
SkipTo(LineEnd())

res = EACH_LINE.parseString(source)
print res.myValue

问题:

1) 我已经设置了空格,如果我想精确匹配 2 个或更多空格或一个或多个制表符,我认为代码如下: 白色(ws=' ', min=2)|白色(ws='\t', min=1) 但这会失败,所以我无法指定空白值?

2)有没有办法得到匹配的结果索引?我尝试了 setParseAction,但似乎无法通过此回调获取索引。我需要开始和结束索引来突出显示单词。

3) LineStart 和 LineEnd 是什么意思?我打印这些值,看起来它们只是普通的字符串,我是否必须在一行的前面写一些东西,比如: LineStart() + 巴拉巴拉... + LineEnd() ?

谢谢,但是,有一个限制,我不能将'\t'替换为''

from pyparsing import *

source = "Library\tsshclient\t\t\twith name s1"

value = Combine(OneOrMore(Word(printables) | White(' ', max=1) + ~White())) #here it seems the whitespace has already been set to ' ', why the result still match '\t'?

linedefn = OneOrMore(value)

res = linedefn.parseString(source)

print res

我得到了

['Library sshclient', 'with name', 's1']

但我以为 ['库', 'sshclient', '同名', 's1']

最佳答案

当空格进入已解析的标记时,我总是退缩,但由于您的限制是只允许单个空格,这应该是可行的。我使用以下表达式来定义可以嵌入单个空格的值:

# each value consists of printable words separated by at most a 
# single space (a space that is not followed by another space)
value = Combine(OneOrMore(Word(printables) | White(' ',max=1) + ~White()))

完成后,一行就是这些值中的一个或多个:

linedefn = OneOrMore(value)

按照您的示例,包括调用 str.replace 以用空格对替换制表符,代码如下所示:

data = "Library\tSSHClient    with name\tnode"

# replace tabs with 2 spaces
data = data.replace('\t', ' ')

print linedefn.parseString(data)

给予:

['Library', 'SSHClient', 'with name', 'node']

要获取原始字符串中任何值的开始和结束位置,请将表达式包装在新的 pyparsing 辅助方法 locatedExpr 中:

# use new locatedExpr to get the value, start, and end location 
# for each value
linedefn = OneOrMore(locatedExpr(value))('values')

如果我们解析并转储结果:

print linedefn.parseString(data).dump()

我们得到:

- values: 
[0]:
[0, 'Library', 7]
- locn_end: 7
- locn_start: 0
- value: Library
[1]:
[9, 'SSHClient', 18]
- locn_end: 18
- locn_start: 9
- value: SSHClient
[2]:
[22, 'with name', 31]
- locn_end: 31
- locn_start: 22
- value: with name
[3]:
[33, 'node', 37]
- locn_end: 37
- locn_start: 33
- value: node

LineStart 和 LineEnd 是 pyparsing 表达式类,其实例应在一行的开头和结尾匹配。 LineStart 一直很难使用,但 LineEnd 是可以预测的。在您的情况下,如果您一次只读取和解析一行,那么您不需要它们 - 只需定义您期望的行的内容。如果你想确保解析器已经处理了整个字符串(并且不会因为不匹配的字符而在末尾停止),添加 + LineEnd()+ StringEnd() 到解析器的末尾,或将参数 parseAll=True 添加到对 parseString() 的调用中。

编辑:

很容易忘记 pyparsing 默认调用 str.expandtabs - 你必须通过调用 parseWithTabs 来禁用它。那,并明确禁止值词之间的制表符解决了您的问题,并将值保持在正确的字符数。请参阅以下更改:

from pyparsing import *
TAB = White('\t')

# each value consists of printable words separated by at most a
# single space (a space that is not followed by another space)
value = Combine(OneOrMore(~TAB + (Word(printables) | White(' ',max=1) + ~White())))

# each line has one or more of these values
linedefn = OneOrMore(value)
# do not expand tabs before parsing
linedefn.parseWithTabs()


data = "Library\tSSHClient with name\tnode"

# replace tabs with 2 spaces
#data = data.replace('\t', ' ')

print linedefn.parseString(data)


linedefn = OneOrMore(locatedExpr(value))('values')
# do not expand tabs before parsing
linedefn.parseWithTabs()
print linedefn.parseString(data).dump()

关于python - pyparsing 空格匹配问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26600333/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com