python - 解析器失败 - pyparsing-6ren

python - 解析器失败 - pyparsing

转载作者：太空宇宙更新时间：2023-11-03 17:16:52

24

4

我正在尝试创建一个解析器，将一些数学转换为 C。这归结为必须找到 ...^x 形式的嵌套表达式，并将其替换为 pow(...,x) (此处x 是一个数字)。

一些假设:

^只会出现在表示求幂的地方
“x”始终是 C 中表示的实数
指数 ^ 之前的 ... 可以是某种变量、数字或括号中的分组表达式。变量将是带有(可能)下划线的字母数字字符串。

如果我错过了什么，我可以澄清更多假设(只需询问)。

我的代码如下所示，以及一个失败的示例。为什么会失败？

代码:

from pyparsing include *
def parse(s):
    identifier = Regex(r'-?[a-zA-Z0-9_]+')
    real = Regex(r'-?[0-9]+(\.?[0-9]+)?(e-?[0-9]+)?')
    oper = Regex(r'[\*\+/-]-?')
    #oper = oneOf("* + - /")

    # define arithOperand as a Forward, since it could contain nested power expression
    arithOperand = Forward()
    arithExpr = arithOperand + ZeroOrMore(oper + arithOperand)
    groupedArithExpr = '(' + arithExpr + ')'

    # define expression for x^y, where x could be any kind of arithmetic term
    powerOp = Literal('^')
    powerExpr = (groupedArithExpr|real|identifier) + powerOp + real #order matters?
    powerExpr.setParseAction(lambda tokens: 'pow(%s,%s)' % (tokens[0], tokens[2]))

    # now define the possible expressions for arithOperand, including a powerExpr
    arithOperand <<= powerExpr | real | identifier | groupedArithExpr

    # convert parsed list of strings to a single string
    groupedArithExpr.setParseAction(''.join)

    return arithExpr.transformString(s)

导致失败的字符串:

s = ((s9*(s4*s6+c4*c6*s5)-c5*c6*c9)*(-(c4*s6-c6*s4*s5)*(x1*(1.0/2.0)+BASE_ORIGIN_Z*(s4*s6+c4*c6*s5)+(c4*s6-c6*s4*s5)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*c6)+(c4*c6+s4*s5*s6)*(x2*(1.0/2.0)-BASE_ORIGIN_Z*(c6*s4-c4*s5*s6)-(c4*c6+s4*s5*s6)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*s6)+c5*s4*(x3*(1.0/2.0)-BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))))+(c4*s6-c6*s4*s5)*((c9*s5+c4*c5*s9)*(x3*(1.0/2.0)-BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0)))+(s9*(s4*s6+c4*c6*s5)-c5*c6*c9)*(x1*(1.0/2.0)+BASE_ORIGIN_Z*(s4*s6+c4*c6*s5)+(c4*s6-c6*s4*s5)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*c6)-(s9*(c6*s4-c4*s5*s6)+c5*c9*s6)*(x2*(1.0/2.0)-BASE_ORIGIN_Z*(c6*s4-c4*s5*s6)-(c4*c6+s4*s5*s6)*(-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*(1.0/2.0)+LEG_LINK_EXTENTS_Y*(1.0/2.0))+BASE_ORIGIN_X*c5*s6)))^2

这里的指数不会转换为 pow，整个输入表达式保持不变，没有任何变化。我的解析器出了什么问题？

最佳答案

我认为您唯一缺少的是您没有处理领先的一元“-”运算符。使用以下方法可以轻松将其合并到您的 arithOperand 表达式中:

arithOperand <<= Optional('-') + (powerExpr | real | identifier | groupedArithExpr)

进行此更改后，您的代码将生成以下输出(不包含“^”运算符):

pow
  (
    (
      (s9*
        (s4*s6+c4*c6*s5)
      -c5*c6*c9)
    *
      (-
        (c4*s6-c6*s4*s5)
      *
        (x1*pow
          (
            (1.0/2.0)
          ,3)
        +BASE_ORIGIN_Z*
          (s4*s6+c4*c6*s5)
        +
          (c4*s6-c6*s4*s5)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*c6)
      +
        (c4*c6+s4*s5*s6)
      *
        (x2*
          (1.0/2.0)
        -BASE_ORIGIN_Z*
          (c6*s4-c4*s5*s6)
        -
          (c4*c6+s4*s5*s6)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*s6)
      +c5*s4*
        (x3*
          (1.0/2.0)
        -BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        )
      )
    +
      (c4*s6-c6*s4*s5)
    *
      (
        (c9*s5+c4*c5*s9)
      *
        (x3*
          (1.0/2.0)
        -BASE_ORIGIN_X*s5+BASE_ORIGIN_Z*c4*c5-c5*s4*
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        )
      +
        (s9*
          (s4*s6+c4*c6*s5)
        -c5*c6*c9)
      *
        (x1*
          (1.0/2.0)
        +BASE_ORIGIN_Z*
          (s4*s6+c4*c6*s5)
        +
          (c4*s6-c6*s4*s5)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*c6)
      -
        (s9*
          (c6*s4-c4*s5*s6)
        +c5*c9*s6)
      *
        (x2*
          (1.0/2.0)
        -BASE_ORIGIN_Z*
          (c6*s4-c4*s5*s6)
        -
          (c4*c6+s4*s5*s6)
        *
          (-BASE_ORIGIN_Y+BASE_LINK_EXTENTS_Y*
            (1.0/2.0)
          +LEG_LINK_EXTENTS_Y*
            (1.0/2.0)
          )
        +BASE_ORIGIN_X*c5*s6)
      )
    )
  ,2)

编辑:(一些化妆品清理)

为了将操作数保留为单个可评估组，您可能最好使用以下方式进行定义:

baseArithOperand = powerExpr | real | identifier | groupedArithExpr
arithOperand <<= Group('-' + baseArithOperand) | baseArithOperand

此外，添加一元减号将允许您删除添加到实数和标识符中的前导“-”。

关于“顺序重要吗”的问题 - 是的，确实重要。幸运的是，您已将 powerExpr 置于 groupedArithExpr 之前，这是仅有的两个可能导致问题的替代方案。如果这两个的顺序颠倒了，那么我认为 powerExprs 永远不会被正确评估，因为前导 () 分组表达式将使用 groupedArithExpr 表达式进行解析，从而在 powerExpr 的后续 '^ 处留下解析错误' 特点。您可以从“|”进行更改运算符(“首先匹配”)到“^”运算符(“匹配最长”)，这将强制评估所有替代项并选择最长的匹配。但在递归语法中，“最长匹配”可能运行得很慢，甚至永远递归，所以我鼓励人们设计“匹配优先”。

编辑2:

别介意 Group，我忘了你只是在这里做transformString - 只要坚持你原来的:

arithOperand <<= Optional('-') + (powerExpr | real | identifier | groupedArithExpr)

但是仔细观察，我现在发现标识符确实过于宽泛，并且会匹配整数和标识符。最好在这里使用 2 参数 Word(并且不用担心速度 - Word 将在内部构建并使用正则表达式进行匹配):

identifier = Word(alphas, alphanums+'_') # not Regex(r'[a-zA-Z0-9_]+')
real = Regex(r'\d+(\.\d*)?([Ee][+-]?\d+)?')
oper = oneOf("* + - /")

EDIT3:为了您的方便，这是我编写的函数，用于缩进您的示例的怪物:

def output_nested_parens(s):
    out = ''
    indent = ''
    for c in s:
        if c == '(':
            indent += '  '
            out += '\n' + indent
            out += c
        elif c == ')':
            indent = indent[2:]
            out += c
            out += '\n' + indent
        else:
            out += c
    return out

关于python - 解析器失败 - pyparsing，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33588039/

24

4

0

文章推荐： ruby - Ruby 中的 $DEBUG 全局变量

文章推荐： c# - Guid.NewGuid() 在 LINQ to Entities 中做什么？

文章推荐： Debian 或 Fedora/CentOS.. 哪个更适合硬件程序员的需求

文章推荐： ruby - 如何更改项目的默认 gemset 和 ruby 版本？

pyparsing - 需要确认 pyparsing 中 PEG 的语义谓词
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词？或者这只是排序解析表达式的同义词？在这种情况下，它应该等同于 And 类。对吗？ Not
pyparsing 不解析整个字符串
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
pyparsing - 导致多个序列结果的嵌套括号解析案例
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。每个嵌套括号元素由条 | 连接字面量导致创建一个新序列，该序列将先前的序列元
recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔，交替由逗号表示。我被困在字符串的第一部分，括号内有一个空格
python - pyparsing - 大计算卡住解释器
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
python - pyparsing - 用千位分隔符解析数字
所以我在制作解析器时，发现了一个问题。事实上，为了解析数字，我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如，
literals - PyParsing:是否可以全局抑制所有文字？
我有一个简单的数据集，可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
nested - Pyparsing - 匹配最外面的一组嵌套括号
我正在尝试使用 pyparsing 来构建一个解析器，该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
python - Pyparsing:在parseaction中访问外部ParseResults
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
python - Pyparsing packrat会降低性能
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析，看来这确实可以帮助解析器提高性能。但是，当我启用packrat解析时，性能会变差！如果没有packra
python - Pyparsing 无法解析多个规则
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
python - pyparsing 中调试中缀语法的问题
我编写此脚本是为了使用类似于序言的语法来解析语句，将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
python - pyparsing:忽略任何不匹配的标记
我有一个来自游戏的文件，我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
python - Pyparsing 中单词中的反斜杠冲突和换行符
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而，“\”也可用作续行(参见例 2)。 Ex1 工作正常，但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
python - pyparsing:提取包含特定文本的字符串
我正在尝试学习 pyparsing。这听起来很有希望，并且用于文本处理会很有趣。无论如何，这是我的问题: 我有一个类(class)名称列表。例如， courselist = ["Project Bas
python - Pyparsing:如何实现C风格注释的特殊处理？
我想利用 cStyleComment 变量，但我想专门处理它们，而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序，然后再将其丢弃吗？我正在处
python - PyParsing - 嵌套表达式和匹配标记
我今天早些时候发布了一个关于同一问题的问题，但由于该问题的解决方案是切换库，而我现在对另一个库有问题，我想我会提出另一个问题......希望没关系。所以我不想匹配以下标记: ... 我不
python - PyParsing 表示函数的字符串
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
python - Pyparsing 找到文件中的第一次出现
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。我有一个大的配置文件需要解析，其中的“条目”用大括号
python - pyparsing 条件解析器
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在，在第一次重新启动之前输出可能如下所示: Up

首页

博学

6Ren·AI

商城

python - 解析器失败 - pyparsing