python - Pyparsing packrat会降低性能-6ren

python - Pyparsing packrat会降低性能

转载作者：行者123 更新时间：2023-12-01 09:14:00

32

4

我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析，看来这确实可以帮助解析器提高性能。但是，当我启用packrat解析时，性能会变差！如果没有packrat，则解析20 MB文件大约需要2分钟。启用packrat后，它需要花费2-3倍的时间。我读到packrat的parseActions可能有问题，所以我从语法中删除了所有parseActions，以查看packrat能否提高其性能，但这也无济于事。我尝试了不同的缓存大小限制（无限制，范围在100-1000之间），但是当启用packrat时，所有这些方法反而会降低解析器的性能。

设置packrat的cache_size_limit是否有经验法则？是否有任何语法结构限制了packrat解析的使用或解释了为什么我的解析器的性能变得更差？

最佳答案

不管如何，一个20MB的文件都需要一些时间来进行pyparsing，但是有些构造可能会减慢您的速度。

当我们重新执行packrat解析以将OrderedDict用于缓存时，我对缓存大小进行了一些不同值的测试。结果表明，默认值128仅比无限制的缓存低1-2％，在内存和性能方面均取得了巨大的成功。因此，如果大于200或300的值在缓存搜索和内存管理方面付出代价的同时，对缓存有很大帮助，我会感到惊讶。

通过在输入字符串的相同位置重新访问相同的表达式来获得高速缓存命中时，Packrat解析最有效。重要的是，它是完全相同的表达式，而不仅仅是等效的表达式。例如，如果您有以下内容：

Literal("A") + Optional("," + Literal("B")) + Optional("," + Literal("C"))

分隔逗号的单独文字是不同的表达式，因此不会是缓存命中。相反，如果您定义并重用单个表达式进行公共标点，则packrat解析中更有机会从缓存中查找其解析结果，而不用重新解析：

COMMA = Literal(",")
Literal("A") + Optional(COMMA + Literal("B")) + Optional(COMMA + Literal("C"))

最近，我一直在使用 expr()语法创建 expr的副本，以便不会在全局范围内意外更改诸如解析操作，空格设置等修饰符。这将防止表达式重用，因此，如果您有许多不需要的 expr()实例，则只需重用基本的 expr。还要注意，带有结果名称的表达式会隐式复制，因此请确保不要过度使用结果名称。

当使用 infixNotation时，Packrat解析是最好的，尤其是当操作符优先级为6或更高时。 infixNotation生成的表达式可重复使用子表达式，而不是定义新的子表达式，因此它可以获得更好的缓存性能。

当您可以使用'|'时，可能会在 Or中过度使用'^'运算符 MatchFirst的运算符。当用于递归表达式（使用 Forward）时，这可能特别昂贵。比较这两个表达式：

arith_operand = integer_expr ^ float_expr ^ variable_name ^ Keyword("pi") ^ Keyword("e")

通过使用“ ^”，将对所有表达式求值，然后选择最长的匹配项。特别是，如果解析“ 3.1416”，则必须这样做，因为前导“ 3”将匹配 integer，但是较长的“ 3.1416”将匹配 float_expr。但是我们也尝试匹配一个变量名，以及关键字“ pi”和“ e”，以确保没有匹配项。（我们对 variable_name和“ pi”和“ e”有相同的表达式掩盖问题，因为它们可能会作为可能的变量名匹配。）但是，如果更改为使用“ |”，则解析器将短路在第一场比赛。我们只需要注意解析顺序即可：

arith_operand = float_expr | integer_expr | Keyword("pi") | Keyword("e") | variable_name

也就是说，我们必须确保在匹配整数之前检查浮点数是否匹配，因为浮点数的前导部分可能会误认为是整数。

如果您有容易互斥的替代方案（例如一系列可能的关键字，由于它们的关键字性质，它们永远不会相互掩盖），那么您也可以根据一些可能的频率对它们进行排序。例如：

bad_expr = Keyword("xylophone") | Keyword("the") | Keyword("a")

在大多数非音乐应用程序中，它可能会成为性能损失。

在pyparsing的早期，我没有 Regex类，因此我必须使用 Combine(Word(nums) + "." + Optional(Word(nums)))之类的东西为实数定义一个表达式。只需使用 Regex(r"\d+\.\d*")即可进行pyparsing的大量工作。通常，实数表达式是在给定的解析运行中使用并测试了数千次的真正的低级表达式，因此转换为 Regex确实会有所收获。或使用 pyparsing_common中的数字表达式之一，例如 pyparsing_common.real或 pyparsing_common.number。但是，您不需要太费力-pyparsing内部使用正则表达式使用 Word和 oneOf匹配表达式。

您还可以直接检查 ParserElement.packrat_cache和 ParserElement.packrat_cache_stats缓存和缓存统计信息。缓存状态是一个由两个元素组成的列表，元素0是缓存命中数，元素1是未命中数。您可以为重复的表达式定义调试操作，该操作将打印出缓存状态。您也可以使用Counter： Counter(str(key[0]) for key in ParserElement.packrat_cache)查找重复的表达式。通过 str-表达式，它将有助于识别重复项。因此，您可以查看不同大小的缓存大小的缓存效率。

编辑：我的错误， ParserElement.packrat_cache中的缓存键上的迭代不起作用，缓存 OrderedDict本身被隐藏，无法进行外部访问。

关于python - Pyparsing packrat会降低性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51412184/

32

4

0

文章推荐： java - 如何处理类中每个方法的异常

文章推荐： java - 银行计划的转账和提款方式出现问题

pyparsing - 需要确认 pyparsing 中 PEG 的语义谓词
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词？或者这只是排序解析表达式的同义词？在这种情况下，它应该等同于 And 类。对吗？ Not
pyparsing 不解析整个字符串
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
pyparsing - 导致多个序列结果的嵌套括号解析案例
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。每个嵌套括号元素由条 | 连接字面量导致创建一个新序列，该序列将先前的序列元
recursion - pyparsing 逗号分隔列表内的递归语法空间分隔列表
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔，交替由逗号表示。我被困在字符串的第一部分，括号内有一个空格
python - pyparsing - 大计算卡住解释器
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
python - pyparsing - 用千位分隔符解析数字
所以我在制作解析器时，发现了一个问题。事实上，为了解析数字，我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如，
literals - PyParsing:是否可以全局抑制所有文字？
我有一个简单的数据集，可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
nested - Pyparsing - 匹配最外面的一组嵌套括号
我正在尝试使用 pyparsing 来构建一个解析器，该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
python - Pyparsing:在parseaction中访问外部ParseResults
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
python - Pyparsing packrat会降低性能
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析，看来这确实可以帮助解析器提高性能。但是，当我启用packrat解析时，性能会变差！如果没有packra
python - Pyparsing 无法解析多个规则
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
python - pyparsing 中调试中缀语法的问题
我编写此脚本是为了使用类似于序言的语法来解析语句，将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
python - pyparsing:忽略任何不匹配的标记
我有一个来自游戏的文件，我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
python - Pyparsing 中单词中的反斜杠冲突和换行符
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而，“\”也可用作续行(参见例 2)。 Ex1 工作正常，但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
python - pyparsing:提取包含特定文本的字符串
我正在尝试学习 pyparsing。这听起来很有希望，并且用于文本处理会很有趣。无论如何，这是我的问题: 我有一个类(class)名称列表。例如， courselist = ["Project Bas
python - Pyparsing:如何实现C风格注释的特殊处理？
我想利用 cStyleComment 变量，但我想专门处理它们，而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序，然后再将其丢弃吗？我正在处
python - PyParsing - 嵌套表达式和匹配标记
我今天早些时候发布了一个关于同一问题的问题，但由于该问题的解决方案是切换库，而我现在对另一个库有问题，我想我会提出另一个问题......希望没关系。所以我不想匹配以下标记: ... 我不
python - PyParsing 表示函数的字符串
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
python - Pyparsing 找到文件中的第一次出现
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。我有一个大的配置文件需要解析，其中的“条目”用大括号
python - pyparsing 条件解析器
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在，在第一次重新启动之前输出可能如下所示: Up

首页

博学

6Ren·AI

商城

python - Pyparsing packrat会降低性能