gpt4 book ai didi

recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表

转载 作者:行者123 更新时间:2023-12-05 05:20:30 27 4
gpt4 key购买 nike

有以下我要解析的字符串:

((K00134,K00150) K00927,K11389) (K00234,K00235)

每个步骤由空格分隔,交替由逗号表示。我被困在字符串的第一部分,括号内有一个空格。我正在寻找的所需输出是:

[[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']

到目前为止我得到的是进行递归解析的基本设置,但我对如何将空格分隔列表中的代码编码到括号表达式中感到困惑

from pyparsing import Word, Literal, Combine, nums, \
Suppress, delimitedList, Group, Forward, ZeroOrMore

ortholog = Combine(Literal('K') + Word(nums, exact=5))
exp = Forward()
ortholog_group = Suppress('(') + Group(delimitedList(ortholog)) + Suppress(')')
atom = ortholog | ortholog_group | Group(Suppress('(') + exp + Suppress(')'))
exp <<= atom + ZeroOrMore(exp)

最佳答案

你走在正确的轨道上,但我认为你只需要一个地方用 () 进行分组,而不是两个。

import pyparsing as pp 

LPAR,RPAR = map(pp.Suppress, "()")
ortholog = pp.Combine('K' + pp.Word(pp.nums, exact=5))

ortholog_group = pp.Forward()
ortholog_group <<= pp.Group(LPAR + pp.OneOrMore(ortholog_group | pp.delimitedList(ortholog)) + RPAR)
expr = pp.OneOrMore(ortholog_group)

tests = """\
((K00134,K00150) K00927,K11389) (K00234,K00235)
"""
expr.runTests(tests)

给出:

((K00134,K00150) K00927,K11389) (K00234,K00235)
[[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]
[0]:
[['K00134', 'K00150'], 'K00927', 'K11389']
[0]:
['K00134', 'K00150']
[1]:
K00927
[2]:
K11389
[1]:
['K00234', 'K00235']

这与您所说的不完全相同:

you wanted: [[['K00134', 'K00150'], 'K00927'], 'K11389'], ['K00234', 'K00235']
I output : [[['K00134', 'K00150'], 'K00927', 'K11389'], ['K00234', 'K00235']]

我不确定为什么在您想要的输出中围绕空格分隔的部分 (K00134,K00150) K00927 进行分组。这是你的意图还是打字错误?如果有意,您需要修改 ortholog_group 的定义,除了在 parens 处分组之外,它还会做一个以空格分隔的组的分隔列表。我能得到的最接近的是:

[[[[['K00134', 'K00150']], 'K00927'], ['K11389']], [['K00234', 'K00235']]]

这需要一些恶作剧在空间上分组,但在与其他组分组时不对裸直向同源分组。这是它的样子:

ortholog_group <<= pp.Group(LPAR + pp.delimitedList(pp.Group(ortholog_group*(1,) & ortholog*(0,))) + RPAR) | pp.delimitedList(ortholog)

& 运算符与重复运算符组合给出了以空格分隔的分组(*(1,) 等同于 OneOrMore*(0,)ZeroOrMore,但也支持 *(10,) 表示“10 或更多”,或 *( 3,5) 表示“至少 3 且不超过 5”)。这也不完全符合您的要求,但如果您确实需要对以空格分隔的位进行分组,则可能会让您更接近。

但我必须说,按空格分组是模棱两可的——或者至少是令人困惑的。 “(A,B) C D”应该是 [[A,B],C,D][[A,B],C],[D][[A,B],[C,D]]?我认为,如果可能的话,您应该允许使用逗号分隔的列表,并且也许也允许使用空格分隔,但是在应该对项目进行分组时需要 ()。

关于recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44546398/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com