- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在制作一个 LR(1) 解析器,我在很多地方遇到了性能瓶颈。
我想尝试优化解析器的数据结构,但为了做到这一点,我需要大致了解有多少状态、规则和终端符号对于(可能是复杂的)计算机语言是合理的,像 C++。
我的猜测是,复杂语言的典型语法应该是:
但我真的不知道他们有多正确。
请注意,我假设每个规则都是 nonterminal → symbol symbol symbol...,因此,看起来像 foo: (bar | baz)+
的单个复合“规则”实际上可能包含 5 条规则,而不仅仅是 1 条规则。
它们合理吗?如果不是,我在哪里可以找到这些数字?
最佳答案
我每天开发的 DMS 系统在一台破旧的笔记本电脑上处理生产 IBM Enterprise COBOL 前端语法大约需要 7 秒(刚刚在那台笔记本电脑上测量)。
语法有大约 500 个终端和 2500 个产生式,平均约 2.5 个标记每个生产。我们的产品与您描述的完全一样(没有 EBNF,只是买的不够重要,是的,我们是 DSL 的忠实粉丝。有时人们放入 DSL 的 geegaws 不值得)。解析器生成器产生 3800 个状态。 (这些值也是刚刚测量的)。
DMS 具有完整的 C++11 语法,其中包含许多额外的内容来处理 GCC 和 MS 方言以及 OpenMP。该文法有 457 个终端,约 3000 个产生式,每个产生式平均约 2.3 个记号。解析器生成器产生 5800 个状态。生成时间稍长:11 秒,在 i7 上。您可能会感到惊讶的是,它需要生成词法分析器需要几十秒(实际上是多个词法分析器); C++11 中的词法怪异比你想象的要多得多。
生成器是我们自己实现的 GLR 生成器。
我们没有做很多事情来优化生成时间。它可能会加速 10 倍或更多;我们没有像大多数关于 LR 解析器生成的论文中所建议的那样进行复杂的循环检测优化。结果是生成表需要更长的时间,但功能上没有任何损失。我们从来没有足够的动力进行这种优化,因为除了担心解析器表生成时间之外,语言前端还有很多其他事情要做。
如果设计合理,我怀疑数据结构是否重要。我们不太担心规则、项目集或状态的大小;我们只使用动态数组,它们会自行处理。我们确实将先行打包到密集的位 vector 中。
作为额外的背景数据,您可能会发现这篇论文很有用:Tiago Alves and Joost Visser, Metrication of SDF Grammars. Technical Report, DI-Research.PURe-05.05.01, Departamento de Informática, Universidade do Minho, May 2005.
解析器生成器不是您在语法方面遇到困难的地方。它正在为特定的实现获取正确的语法规则。
关于c++ - LR(1) 语法的状态、符号和规则的数量的合理上限是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14151239/
在典型的 Scala 上界示例中 abstract class Animal { def name: String } abstract class Pet extends Animal {} c
我有 tstzrange 类型的列(带时区范围的时间戳),我只需要更新此值的上限或下限(并保持包含/排除边界) 我设法改变了 (-infinity,infinity) 与 UPDATE table S
我很好奇 GCD 问题。我正在参加 Coursera 算法工具箱类(class),它指出问题的天真解决方案是: for d from 1 to a+b: if d|a and d|b:
我需要知道是否有东西在两个限制之间,但我在 Playground 上不断遇到相同的 2 个错误,而且我似乎无法在网上找到解决方案。知道如何在 Swift 中做到这一点吗? var upperLimit
什么是快速计算 (long int) ceiling(log_2(i)) 的方法,其中输入和输出是 64 位整数?有符号或无符号整数的解决方案是可以接受的。我怀疑最好的方法是类似于找到的方法 here
lower_bound 是什么意思。如果我不得不猜测,我会回答这个函数在小于请求值的最后一个元素处返回迭代器。但我看到lower_bound 几乎和upper_bound 一样。唯一的区别是在 upp
我有一个曾经是 TreeView 控件的菜单,但现在我想让每个项目更加直观,并向树中的每个对象添加更多信息。 我的第一个意图是制作一个代表项目的用户控件,并在运行时将它们添加到面板中。这是一个好方法吗
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Limiting the max size of a HashMap in Java 当键数超过容量时,如何
我将 time_point 设置为下一个完整的五分钟,这很容易: template using minutes = std::chrono::duration, std::chrono::m
这个问题在这里已经有了答案: Upper bound vs lower bound for worst case running time of an algorithm (3 个答案) 关闭 7
这是代码。结果我得到“4 4”。不明白为什么不是“2 4”(根据下限和上限的定义)。 #include using namespace std; int main() { vector v
我必须检查一个包含平方根的不等式。为了避免由于 float 不准确和舍入导致的不正确结果,我使用 std::nextafter() 来获取上限/下限: #include // DBL_MAX #in
我想将一些小数点后两位的数字四舍五入为 1。然而我总是希望它能进入第一轮amount 列中的数字列表示例 140.08 = 140.1 141.63 = 141.7 如果我使用 round(141.6
我是 jfreechart 的菜鸟,我有一个应用程序可以创建一个运行良好的简单条形图。问题是,我希望所有图表显示 1 到 10 的范围。当图表中的最高值低于该值时,较低的值将成为图表的上限,并且将以不
我对支持向量机有一个担忧,即它们的分类分数:这些分类分数有上限吗?我认为不是,因为 SVM 只是一个超平面,而分数基本上是一个点到该超平面的距离。如果没有限制,一个点可以位于空间中的任何位置,因此距离
我有一个网页,我想将其设计为看起来像一本打开的书,中间有一个折痕/阴影。页面的高度不是固定的,而是灵活的,随着内容的增长而增长。 body 元素具有纸张纹理的背景图像,没有任何阴影。 对于阴影,我的设
如何在运行时更改 python for 循环的上限? 代码, from random import randint lower_limit = 0 higher_limit = 200 step_si
我正在尝试构建一个函数: 接受长度为 n 的正整数列表作为参数, 返回所有长度为 n 的列表,这些列表由具有以下属性的非负整数组成: 对于列表 lst 它认为对于所有索引 i,lst[i] ≤ upp
我正在尝试查询我的数据库 ratingsChoices= m$distinct({'answers'}) 但我收到了一个警告:错误:明显太大,16mb 上限 在 mongolite 中有解决这个错误的
我有一个 Mongodb 集合。简单地说,它有两列:用户和网址。它有 39274590 行。该表的键是 {user, url}。 使用 Java,我尝试列出不同的 url: MongoDBMana
我是一名优秀的程序员,十分优秀!