python - 仅匹配出现在解析字符串右半部分的元素-6ren

python - 仅匹配出现在解析字符串右半部分的元素

转载作者：行者123 更新时间：2023-11-28 18:26:22

26

4

问题

我想创建一个匹配字符串的解析器

"alpha beta 123 cpart"

 ----^----- -^- --^--
     A:      B:   C:
 alphanums  num alpha

但是 B 部分只有出现在字符串的后半部分(即字符串中点的“右侧”)时才应该匹配。

所以上面的示例字符串应该被解析成几个部分:

A: ['alpha', 'beta']
B: '123'
C: ['cpart']

但是字符串"123 alpha beta cpart"应该被解析为:

A: '123 alpha beta cpart'
B: ''
C: ''

pyparsing 的第一次近似

作为 pyparsing 的起点我尝试使用 matchOnlyAtCol 函数(我想我以后可以提供一个修改版本，它接受一个范围而不是单个列)。但是，我遇到了 matchOnlyAtCol 的一些奇怪行为。这是我的演示代码:

b_only_near_end = pp.Word(pp.nums)\
                    .setParseAction(pp.matchOnlyAtCol(12))('B')
a = pp.ZeroOrMore(pp.Word(pp.alphanums), stopOn=b_only_near_end)('A')
c = pp.ZeroOrMore(pp.Word(pp.alphas))('C')
expr = a + pp.Optional(b_only_near_end) + c

1) 当我将第一个示例字符串 "alpha beta 123 cpart" 送入 expr 的 ParseString 我得到了预期的结果

A: ['alpha', 'beta']
B: '123'
C: ['cpart']

因为 B 正好从第 12 列开始。

2) 当我输入第二个字符串 "123 alpha beta cpart"(第 1 列的 B 部分)我得到

ParseException:
Expected end of text (at char 0), (line:1, col:1)
">!<123 alpha beta cpart"

为什么？ b_only_near_end 根本不应该匹配，因此不会停止表达式 a，所以我希望 a 吃掉所有字符，我不希望冒泡的异常(exception)，因为所有部分都是可选的(通过 Optional 类或通过 ZeroOrMore 构造)。

更新:匹配调试揭示了什么

我通过以下表达式代码通过 setDebug() 为 ZeroOrMore 元素打开调试:

b_word = pp.Word(pp.nums).setName('_B_word_')
b_word.setDebug()
b_only_near_end = b_word\
                    .setParseAction(pp.matchOnlyAtCol(12))('B')
a_word = pp.Word(pp.alphanums).setName('_A_word_')
a_word.setDebug()
a = pp.ZeroOrMore(a_word, stopOn=b_only_near_end).setName('__A__')('A')
a.setDebug()

c_word = pp.Word(pp.alphas).setName('_C_word_')
c_word.setDebug()
c = pp.ZeroOrMore(c_word).setName('__C__')('C')
c.setDebug()

expr = a + pp.Optional(b_only_near_end) + c

1) 当输入字符串 "alpha beta 123 cpart" 我得到调试输出:

Match __A__ at loc 0(1,1)
Match _B_word_ at loc 0(1,1)
Exception raised:Expected _B_word_ (at char 0), (line:1, col:1)
Match _A_word_ at loc 0(1,1)
Matched _A_word_ -> ['alpha']
Match _B_word_ at loc 5(1,6)
Exception raised:Expected _B_word_ (at char 6), (line:1, col:7)
Match _A_word_ at loc 5(1,6)
Matched _A_word_ -> ['beta']
Match _B_word_ at loc 10(1,11)
Matched _B_word_ -> ['123']
Matched __A__ -> ['alpha', 'beta']
Match _B_word_ at loc 11(1,12)
Matched _B_word_ -> ['123']
Match __C__ at loc 14(1,15)
Match _C_word_ at loc 15(1,16)
Matched _C_word_ -> ['cpart']
Match _C_word_ at loc 20(1,21)
Exception raised:Expected _C_word_ (at char 20), (line:1, col:21)
Matched __C__ -> ['cpart']

2) 使用字符串 "123 alpha beta cpart" 输出是:

Match __A__ at loc 0(1,1)
Match _B_word_ at loc 0(1,1)
Matched _B_word_ -> ['123']
Matched __A__ -> []
Match _B_word_ at loc 0(1,1)
Exception raised:matched token not at column 12 (at char 0), (line:1, col:1)
Match __C__ at loc 0(1,1)
Match _C_word_ at loc 0(1,1)
Exception raised:Expected _C_word_ (at char 0), (line:1, col:1)
Matched __C__ -> []

加上 ParseException:

Expected end of text (at char 0), (line:1, col:1)
">!<123 alpha beta cpart"

所以这意味着部分 A 匹配字符串的开头 - 匹配结果为空，因为 a_word 不匹配 - 所以我想我必须制作一个更贪婪，但是如何呢？

奇怪的是

Matched __A__ -> []

发生在

之前

Match _B_word_ at loc 0(1,1)
Exception raised:matched token not at column 12 (at char 0), (line:1, col:1)

A 应该“等待”更长的匹配结果，但我如何强制它这样做？

也许整个方法没有成效？是否有另一种方法可以仅在字符串的第二部分实现匹配？

最佳答案

1) 在 First approximation with pyparsing 的代码中看行

b_only_near_end = pp.Word(pp.nums)\
                  .setParseAction(pp.matchOnlyAtCol(12))('B')

附加解析 Action 时，设置callDuringTry选项:

b_only_near_end = pp.Word(pp.nums)\
                  .setParseAction(pp.matchOnlyAtCol(12), 
                                  callDuringTry=True))('B')

然后 matchOnlyAtCol 也将在“前瞻和替代测试期间”(引用 from the docu)进行检查。 没有这个选项，这不会发生!

2) 为了解决标题问题“仅当元素出现在解析字符串的右半部分时才匹配它”(在问题下拼写)定义一个函数:

def matchOnlyInRightHalf():
    """
    Helper method for defining parse actions that require matching in the
    right half of the parse string.
    """
    def verifyInRightHalf(strg,locn,toks):
        col = pp.col(locn,strg)
        middle = len(strg) // 2
        if not (col> middle):
            raise pp.ParseException(strg, locn,
                                "matched token not in right half of string")
    return verifyInRightHalf

并将其用作解析操作:

b_only_near_end = b_word.setParseAction(matchOnlyInRightHalf(),
                                        callDuringTry=True)

关于python - 仅匹配出现在解析字符串右半部分的元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41234646/

26

4

0

文章推荐： Python 日期时间库，在向日期时间添加天数时可以识别夏令时

文章推荐： python - Pandas 在给定多个条件的情况下计算多列的总和

文章推荐： CSS 文本背景颜色被切断

c - +<右> 与 <右>？
我想知道最终用户按下了什么，所以我使用了 getch() 。如果用户按右，我可以获得0xE0 0x4D。如果用户按下Ctrl+右，我可以获得0xE0 0x47。如果用户按下Shift+右，我可以
javascript - 如何启用谷歌地图 Controller (右，右..等箭头)
我已经构建了一个应用程序来搜索我的位置。这是代码 var map; var gdir; var geocoder = null; var addressMarker; function init
html - 3 个元素的对齐方式(左、右 1、右 2)
我想为我的元素设计布局 View 。布局 View 在左 Angular 和右 Angular (同一行)有一个图像，将有 2 行单词，一行在第 1 行，另一行在第 2 行。我该如何实现？ It
graphviz - Graphviz 中的左->右、下、右->左、下、左->右布局
我有一个很长的线性(分支不多)流程图，在 graphviz 中显示为要么太高而无法放在单个页面上，要么太宽(如果方向是从左到右) 是否有一种简单的方法可以让 graphviz 以从左到右，然后向下，然
responsive-design - 3 列(左、主、右)站点，但较小的设备首先是主(主、左、右)
我一直摸不着头脑，但运气不好。设计器有一个包含 3 栏的站点、两个侧边栏和一个主要内容区域。专为桌面设计，左栏、主要内容、右栏。但是，在较小的设备上，我们希望首先堆叠主要内容。所以通常情况下，你可
html - 使用 CSS 的上-下-左-右-上-左-右-上-下内容流
我想要从上到下和从左到右组织的 css block 。为了更好地解释这是一张图片，其中包含我到目前为止所获得的内容以及我希望使用 CSS 实现的内容: 代码如下: HTML: 1 2 3 4 5
haskell - 如果“任一个”可以是“左”或“右”，但不能同时是“左”或“右”，那么为什么在Curry-Howard对应中它对应于OR而不是XOR？
当我问this question时，答案之一(现已删除)建议Either类型对应Curry-Howard correspondence中的XOR而不是OR，因为它不能同时是Left和Right。真相
右 |多列的条件变异
如果一行中六个观察值中至少有三个是 != NA，我想计算该行的平均值。如果存在四个或更多 NA，则平均值应显示为 NA。给出平均值的例子，忽略了 NA: require(dplyr) a % mut
r - 如何创建每行库存的二进制矩阵？ (右)
我有一个由 9 列组成的数据框，其中包含一个因素 list 。每行可以填充所有 9 列(因为在该行中包含 9 个“事物”)，但大多数没有(大多数有 3-4 个)。列也不是特定的，就像第 1 列和第 3
r - 在循环中创建变量和数据集？ (右)
这是我第一次尝试使用 R 构建函数。基本上我的预期目标如下。使用 RoogleVision 包与 Google Cloud Vision API 通信函数遍历目录中的图片从每张图片的 Googl
右(或左)边修剪平均值
使用: mean (x, trim=0.05) 从分布的每一侧移除 2.5%，这对于对称的双尾数据来说很好。但是如果我有一个尾部或高度不对称的数据，我希望能够只删除分布的一侧。有没有这个功能，还是我自
r - 保留具有不同名称的重复列。右
我想保留重复的列，并删除唯一的列。这些列将具有相同的值，但名称不同。 x1 = rnorm(1:10) x2 = rnorm(1:10) x3 = x1 x4 = rnorm(1:10) x5 = x
wpf - WPF工具栏项目HorizontalAligment =“右”
是否可以使WPF工具栏中的元素的Right水平对齐方式正确？我尝试将内部元素添加到Grid中，并将ColumnDefinition分配给Left / Right。我
r - DT包中如何居中列？右
datatable(head(iris)) 如何将我的列居中，使其位于我的列名称的正下方？最佳答案您可以使用options 下的columnDefs 自变量。将 className 设置为 dt-
r - 使用粘贴来组合字母或循环。右
我是 R 的新手，但我正在尝试在 R 中制作滑动窗口。使用循环我可以像这样，但这变得非常低效。 results=c(1:7) letters=c("A","B","C","D","E","F","G
r - 在文本文件中的特定行之间粘贴文本？ (右)
假设我有这个 .txt 文件: here is line 1 here is line 2 here is line 3 here is line 4 我想将此字符串粘贴到第 3 行和第 4 行之间:
r - 在文本文件中的特定行之间粘贴文本？ (右)
假设我有这个 .txt 文件: here is line 1 here is line 2 here is line 3 here is line 4 我想将此字符串粘贴到第 3 行和第 4 行之间:
class - 环境中有什么类别的对象？ (右)
我想知道我的环境中有什么类型的对象。我可以像这样显示谁在那里: ls() 但是运行类似的东西 sapply(ls(), class) (显然)不会告诉我们我们拥有什么类型(类)的对象(函数、数字、因
r - 绘制带有悬挂叶子的水平树状图？ (右)
我想创建一个带有水平标签的树状图，但让叶子根据它们的高度悬挂，而不是仅仅下降到图的边缘。例子: par(mfrow = c(1,2)) hc <- hclust(dist(USArrests), "
html - 如何在CSS中实现最小左/右
我的 CSS 中有一个元素，如下所示 .xyz{ position:absolute; left:50%; } 现在正如预期的那样，当我减小浏览器窗口的宽度时，这个元素向左移动

首页

博学

6Ren·AI

商城