- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种改进使用pyparsing
构建的解析器性能的方法。我阅读了关于packrat的解析,看来这确实可以帮助解析器提高性能。但是,当我启用packrat解析时,性能会变差!如果没有packrat,则解析20 MB文件大约需要2分钟。启用packrat后,它需要花费2-3倍的时间。我读到packrat的parseActions可能有问题,所以我从语法中删除了所有parseActions,以查看packrat能否提高其性能,但这也无济于事。我尝试了不同的缓存大小限制(无限制,范围在100-1000之间),但是当启用packrat时,所有这些方法反而会降低解析器的性能。
设置packrat的cache_size_limit是否有经验法则?是否有任何语法结构限制了packrat解析的使用或解释了为什么我的解析器的性能变得更差?
最佳答案
不管如何,一个20MB的文件都需要一些时间来进行pyparsing,但是有些构造可能会减慢您的速度。
当我们重新执行packrat解析以将OrderedDict用于缓存时,我对缓存大小进行了一些不同值的测试。结果表明,默认值128仅比无限制的缓存低1-2%,在内存和性能方面均取得了巨大的成功。因此,如果大于200或300的值在缓存搜索和内存管理方面付出代价的同时,对缓存有很大帮助,我会感到惊讶。
通过在输入字符串的相同位置重新访问相同的表达式来获得高速缓存命中时,Packrat解析最有效。重要的是,它是完全相同的表达式,而不仅仅是等效的表达式。例如,如果您有以下内容:
Literal("A") + Optional("," + Literal("B")) + Optional("," + Literal("C"))
COMMA = Literal(",")
Literal("A") + Optional(COMMA + Literal("B")) + Optional(COMMA + Literal("C"))
expr()
语法创建
expr
的副本,以便不会在全局范围内意外更改诸如解析操作,空格设置等修饰符。这将防止表达式重用,因此,如果您有许多不需要的
expr()
实例,则只需重用基本的
expr
。还要注意,带有结果名称的表达式会隐式复制,因此请确保不要过度使用结果名称。
infixNotation
时,Packrat解析是最好的,尤其是当操作符优先级为6或更高时。
infixNotation
生成的表达式可重复使用子表达式,而不是定义新的子表达式,因此它可以获得更好的缓存性能。
Or
中过度使用'^'运算符
MatchFirst
的运算符。当用于递归表达式(使用
Forward
)时,这可能特别昂贵。比较这两个表达式:
arith_operand = integer_expr ^ float_expr ^ variable_name ^ Keyword("pi") ^ Keyword("e")
integer
,但是较长的“ 3.1416”将匹配
float_expr
。但是我们也尝试匹配一个变量名,以及关键字“ pi”和“ e”,以确保没有匹配项。 (我们对
variable_name
和“ pi”和“ e”有相同的表达式掩盖问题,因为它们可能会作为可能的变量名匹配。)但是,如果更改为使用“ |”,则解析器将短路在第一场比赛。我们只需要注意解析顺序即可:
arith_operand = float_expr | integer_expr | Keyword("pi") | Keyword("e") | variable_name
bad_expr = Keyword("xylophone") | Keyword("the") | Keyword("a")
Regex
类,因此我必须使用
Combine(Word(nums) + "." + Optional(Word(nums)))
之类的东西为实数定义一个表达式。只需使用
Regex(r"\d+\.\d*")
即可进行pyparsing的大量工作。通常,实数表达式是在给定的解析运行中使用并测试了数千次的真正的低级表达式,因此转换为
Regex
确实会有所收获。或使用
pyparsing_common
中的数字表达式之一,例如
pyparsing_common.real
或
pyparsing_common.number
。但是,您不需要太费力-pyparsing内部使用正则表达式使用
Word
和
oneOf
匹配表达式。
ParserElement.packrat_cache
和
ParserElement.packrat_cache_stats
缓存和缓存统计信息。缓存状态是一个由两个元素组成的列表,元素0是缓存命中数,元素1是未命中数。您可以为重复的表达式定义调试操作,该操作将打印出缓存状态。您也可以使用Counter:
Counter(str(key[0]) for key in ParserElement.packrat_cache)
查找重复的表达式。通过
str
-表达式,它将有助于识别重复项。因此,您可以查看不同大小的缓存大小的缓存效率。
ParserElement.packrat_cache
中的缓存键上的迭代不起作用,缓存
OrderedDict
本身被隐藏,无法进行外部访问。
关于python - Pyparsing packrat会降低性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51412184/
有时与 一起工作时包鼠 ,在检查 Packrat 库的状态时会得到这种输出: > packrat::status() The following packages are tracked by pac
我之前在 RStudio 中打开了 packrat()。我现在希望完全删除并禁用它(即恢复到安装 Packrat 之前的状态)。我试图在 Rstudio 中找到一个选项来禁用它,但找不到任何东西。因此
我正在尝试将 bool 表达式解析为 Expr树使用来自 scala-parser-combinators 的 Scala 的 Packrat 解析器. sealed trait Expr c
我对 Scala 2.8 中提供的 Packrat 解析器组合器有一些疑问。 不幸的是,除了 Scaladoc PackratParsers 特征描述之外,我找不到任何有关如何使用此新功能的教程,该描
Packrat 理论上是一个很好的工具,但多年来它一直受到启动 RStudio 时大量挂起时间的困扰,开发人员似乎无法解决这个问题。它在我的项目中变得不可持续。有没有人有任何好的替代品来代替 Pack
我正在使用 Packrat 为我的 R 项目设置一个 git 工作流程。每次我packrat::snapshot()我的工作区,文件 packrat.lock随着新包/版本等发生变化,但它也会更改每个
为了更好地了解 Packrat,我尝试查看 the provided implementation附带 the paper (我专注于绑定(bind)): instance Derivs d => M
我正在使用 packrat 构建 R 包。该软件包经过全面测试,并通过本地保存的源文件进行安装 install.packages("myPackage.tar.gz", repos = NULL, t
我在 RStudio 工作。我首先在项目中创建了一个knitr文件,并且编译pdf工作完美。然后,当我处理不同的文件时,我为该项目激活了 packrat。 (后来又停用了) 现在,当我再次尝试 Kni
我正在使用 packrat_0.4.3 并有一些我自己的软件包。 我按照这个介绍创建了一个本地存储库:http://cran.r-project.org/doc/manuals/R-admin.htm
我使用 packrat (v 0.4.8.-1) 创建了一个快照,并捆绑了与相应 R 代码一起使用的 R 包依赖项。我想向其他人提供 R 代码和 packrat 包,使我正在做的工作(包括 R 环境)
我知道并使用 bison/yacc。但在解析世界中,围绕 Packrat 解析有很多议论。 这是什么?值得学习吗? 最佳答案 Packrat 解析是一种为 parsing expression gra
有人可以告诉我如何使用 scala 2.8 packrat-parsing 解析 HTTP 协议(protocol)吗? 我需要将附加的示例 HTTP 响应解析为 ResponseStatusCode
我对 Packrat 有这个问题;当我尝试在 R 上安装随机包时: “无法打开文件'packrat/init.R':没有这样的文件或目录” 我正在使用 ubuntu 16.04,我尝试卸载 r-bas
我的 packrat.src 目录包含多个用于各种库的 *.tar.gz 文件。 例如,broom 的子文件夹如下所示: broom ├── broom_0.4.1.tar.gz └── broom_
许多网站都说 Packrat 解析器可以在线性时间内解析输入。 因此,乍一看,它们比由 yacc 或 bison 工具构建的 LALR 解析器更快。 我想知道在使用通用输入(如编程语言源文件)而不是任
我正在使用 packrat对于我本地的 R 包。我正在尝试添加 MultinomialCI作为依赖项,但我无法将其加载到 packrat .特别是,我不知道如何手动快照。 Rstudio 的包查看器看
我正在开发一个 R 项目 (R studio),该项目需要多个包和 packrat 来管理它们。除了必须安装的 rCharts 之外,我已经能够为所有这些找到 CRAN 或二进制文件: requ
当我从 Rstudio 运行时,我的 Shiny 应用程序运行良好,但在 Shiny 服务器(开源)上运行时,我的 Shiny 应用程序运行良好,这对我来说似乎很奇怪(开源),不使用 packrat
Packrat有一个 use.cache减少软件包安装时间的功能。 该文档提供以下信息: use.cache: Install packages into a global cache, which
我是一名优秀的程序员,十分优秀!