- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种改进使用pyparsing
构建的解析器性能的方法。我阅读了关于packrat的解析,看来这确实可以帮助解析器提高性能。但是,当我启用packrat解析时,性能会变差!如果没有packrat,则解析20 MB文件大约需要2分钟。启用packrat后,它需要花费2-3倍的时间。我读到packrat的parseActions可能有问题,所以我从语法中删除了所有parseActions,以查看packrat能否提高其性能,但这也无济于事。我尝试了不同的缓存大小限制(无限制,范围在100-1000之间),但是当启用packrat时,所有这些方法反而会降低解析器的性能。
设置packrat的cache_size_limit是否有经验法则?是否有任何语法结构限制了packrat解析的使用或解释了为什么我的解析器的性能变得更差?
最佳答案
不管如何,一个20MB的文件都需要一些时间来进行pyparsing,但是有些构造可能会减慢您的速度。
当我们重新执行packrat解析以将OrderedDict用于缓存时,我对缓存大小进行了一些不同值的测试。结果表明,默认值128仅比无限制的缓存低1-2%,在内存和性能方面均取得了巨大的成功。因此,如果大于200或300的值在缓存搜索和内存管理方面付出代价的同时,对缓存有很大帮助,我会感到惊讶。
通过在输入字符串的相同位置重新访问相同的表达式来获得高速缓存命中时,Packrat解析最有效。重要的是,它是完全相同的表达式,而不仅仅是等效的表达式。例如,如果您有以下内容:
Literal("A") + Optional("," + Literal("B")) + Optional("," + Literal("C"))
COMMA = Literal(",")
Literal("A") + Optional(COMMA + Literal("B")) + Optional(COMMA + Literal("C"))
expr()
语法创建
expr
的副本,以便不会在全局范围内意外更改诸如解析操作,空格设置等修饰符。这将防止表达式重用,因此,如果您有许多不需要的
expr()
实例,则只需重用基本的
expr
。还要注意,带有结果名称的表达式会隐式复制,因此请确保不要过度使用结果名称。
infixNotation
时,Packrat解析是最好的,尤其是当操作符优先级为6或更高时。
infixNotation
生成的表达式可重复使用子表达式,而不是定义新的子表达式,因此它可以获得更好的缓存性能。
Or
中过度使用'^'运算符
MatchFirst
的运算符。当用于递归表达式(使用
Forward
)时,这可能特别昂贵。比较这两个表达式:
arith_operand = integer_expr ^ float_expr ^ variable_name ^ Keyword("pi") ^ Keyword("e")
integer
,但是较长的“ 3.1416”将匹配
float_expr
。但是我们也尝试匹配一个变量名,以及关键字“ pi”和“ e”,以确保没有匹配项。 (我们对
variable_name
和“ pi”和“ e”有相同的表达式掩盖问题,因为它们可能会作为可能的变量名匹配。)但是,如果更改为使用“ |”,则解析器将短路在第一场比赛。我们只需要注意解析顺序即可:
arith_operand = float_expr | integer_expr | Keyword("pi") | Keyword("e") | variable_name
bad_expr = Keyword("xylophone") | Keyword("the") | Keyword("a")
Regex
类,因此我必须使用
Combine(Word(nums) + "." + Optional(Word(nums)))
之类的东西为实数定义一个表达式。只需使用
Regex(r"\d+\.\d*")
即可进行pyparsing的大量工作。通常,实数表达式是在给定的解析运行中使用并测试了数千次的真正的低级表达式,因此转换为
Regex
确实会有所收获。或使用
pyparsing_common
中的数字表达式之一,例如
pyparsing_common.real
或
pyparsing_common.number
。但是,您不需要太费力-pyparsing内部使用正则表达式使用
Word
和
oneOf
匹配表达式。
ParserElement.packrat_cache
和
ParserElement.packrat_cache_stats
缓存和缓存统计信息。缓存状态是一个由两个元素组成的列表,元素0是缓存命中数,元素1是未命中数。您可以为重复的表达式定义调试操作,该操作将打印出缓存状态。您也可以使用Counter:
Counter(str(key[0]) for key in ParserElement.packrat_cache)
查找重复的表达式。通过
str
-表达式,它将有助于识别重复项。因此,您可以查看不同大小的缓存大小的缓存效率。
ParserElement.packrat_cache
中的缓存键上的迭代不起作用,缓存
OrderedDict
本身被隐藏,无法进行外部访问。
关于python - Pyparsing packrat会降低性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51412184/
PEG论文描述了两种语义谓词解析表达式: 和谓词&e 不是谓词!e pyparsing 是否支持 And 谓词?或者这只是排序解析表达式的同义词?在这种情况下,它应该等同于 And 类。对吗? Not
我有以下语法和测试用例: from pyparsing import Word, nums, Forward, Suppress, OneOrMore, Group #A grammar for a
我想用这些条件解析带有嵌套括号的字符串: 元素由逗号分隔 ,或吧 | . 嵌套括号元素可能是单个字母数字或另一个嵌套括号。 每个嵌套括号元素由条 | 连接字面量导致创建一个新序列,该序列将先前的序列元
有以下我要解析的字符串: ((K00134,K00150) K00927,K11389) (K00234,K00235) 每个步骤由空格分隔,交替由逗号表示。我被困在字符串的第一部分,括号内有一个空格
所以这是取自 fourFn.py 的解析器: from pyparsing import ( Literal, Word, Group, Forward, al
所以我在制作解析器时,发现了一个问题。事实上,为了解析数字,我有: from pyparsing import Word, nums n = Word(nums) 这适用于没有千位分隔符的数字。例如,
我有一个简单的数据集,可以使用如下行进行解析: R1 (a/30) to R2 (b/30), metric 30 我需要从上面得到的唯一数据如下: R1, a, 30, R2, 192.168.0.
我正在尝试使用 pyparsing 来构建一个解析器,该解析器将匹配任意嵌套的一组括号内的所有文本。如果我们考虑这样的字符串: "[A,[B,C],[D,E,F],G] Random Middle t
from pyparsing import * class AParseActionHolder(object): def __call__(self, string, index, t):
我正在寻找一种改进使用pyparsing构建的解析器性能的方法。我阅读了关于packrat的解析,看来这确实可以帮助解析器提高性能。但是,当我启用packrat解析时,性能会变差!如果没有packra
我正在尝试使用一些特殊规则(例如相邻值和邻近值)创建 bool 查询解析器。到目前为止我创建的规则是 ## DEFINITIONS OF SYMBOLS ### NEAR = CaselessLite
我编写此脚本是为了使用类似于序言的语法来解析语句,将连接词视为具有优先级的运算符: import pyparsing as pyp alphabet = "abcdefghijklmnopqrstuv
我有一个来自游戏的文件,我正在尝试解析它。以下是摘录: id: 50 #Survival Stage bound: 1500 # phase 0 bandi
我很难理解允许在参数名称中使用“\”的语法(例如 net\)。然而,“\”也可用作续行(参见例 2)。 Ex1 工作正常,但 linebreak 和 identifier 变量之间存在冲突。 Ex1:
我正在尝试学习 pyparsing。这听起来很有希望,并且用于文本处理会很有趣。无论如何,这是我的问题: 我有一个类(class)名称列表。例如, courselist = ["Project Bas
我想利用 cStyleComment 变量,但我想专门处理它们,而不是仅仅忽略这些注释。有什么方法可以让 pyparsing 在将其识别为注释的输入片段上调用我的处理程序,然后再将其丢弃吗? 我正在处
我今天早些时候发布了一个关于同一问题的问题,但由于该问题的解决方案是切换库,而我现在对另一个库有问题,我想我会提出另一个问题......希望没关系。 所以我不想匹配以下标记: ... 我不
我有一个如下所示的数据: data = 'person(firstame="bob", lastname="stewart", dob="2010-0206", hobbies=["reading,
我正在通过解析文件 output=wilcard.parseFile(myfile) print output 我确实只得到了字符串的第一个匹配。 我有一个大的配置文件需要解析,其中的“条目”用大括号
我需要解析以下三行: Uptime is 1w2d Last reset at 23:05:56 Reason: reload 但最后两行并不总是存在,在第一次重新启动之前输出可能如下所示: Up
我是一名优秀的程序员,十分优秀!