- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
现在,我们希望拥有基于Antlr4的PL / I,COBOL语法。有没有人提供这些语法
如果没有,可以请您分享一下从头开始开发这些语法的想法/经验
谢谢
最佳答案
我假设您的意思是IBM PL / I和COBOL。 (没有很多其他PL / I,但是我认为并不能真正改变答案)。
寻找成熟的ANTLR语法的明显地方是ANTLR3 grammar library;那里没有PL / 1或COBOL语法。 Antlr V4(ANTLR3的一个非常新的,根本的,向后不兼容的重新设计)主页讨论了Java和C#。那里没有PL / 1或COBOL的提示;鉴于其新颖性,不足为奇。如果您真的很幸运,可能有人会给您并大声说出来。
出于以下几个原因,开发这样的语法很困难(基于个人经验,使用与ANTLR不同的非常强大的解析器系统为这两个特定项目构建生产质量的解析器,请参见我的简历):
字符集和列布局规则(第1-5、6和72-80列是特殊的)可能是一个问题:您所描述的语言通常是用EBCDIC来写的,以前是打孔卡80列格式的,各行之间没有换行符。转换为ASCII有时会产生令人讨厌的毛刺。 ASCII换行符有时在COBOL文字字符串的中间以二进制值形式出现,但是由于它在EBCDIC和ASCII中具有相同的完全相同的代码,因此在翻译后,它(和)似乎是ASCII换行符断字。字符串也可以很长,但可以分成多行。但根据定义,第72-80列必须忽略。列6可能包含“ D”字符,这会影响以下源代码行的解释为“ debug”或“ not”。这意味着您需要正确处理80个色谱柱。我不知道ANTLR必须支持在列区域中处理字符。您还需要担心字符串文字的DBCS编码,以及如果源代码在非英语国家(例如日本)中使用的话,它的变体。
这些语言既庞大又复杂; IBM已经有40年的历史了。 IBM COBOL手册大约有600页...然后您发现COBOL还包括一个Report Writer,这是另一个600页的文档。捕获词汇标记和语法规则的所有细微差别将很费力,您必须从IBM手册中进行操作,这些手册不包含漂亮的BNF风格的描述,这意味着从文本描述和一些示例中进行猜测。对于COBOL,期望有几千个语法规则; PL / 1的抽象程度较轻。期望一定数量的“谎言”;我们已经在很多地方看到了参考文档明确指出某些事情是不合法的,但是IBM编译器(基于真实的,正在运行的源代码)接受了它们,反之亦然。您找到这些的唯一方法是通过经验实验。
两种语言都具有难以解析的构造,例如,要求任意超前和/或局部歧义。从我对ANTLR3的理解来看,ANTLR4比ANTLR3好得多,但这并不意味着这些方面会很容易。 PL / 1在这方面特别讨厌:它没有关键字,但是有数百个上下文关键字。要解决这些问题,必须让词法分析器和解析器进行协作,即使那样,可能仍然存在许多本地模棱两可的解析器。 ANTLR3做得不好。 ANTLR4应该更好,但我不知道它如何处理(如果有的话)。
为了验证这些解析器是正确的,您将需要在数百万行代码上运行它们(这意味着您必须有权访问此类代码示例),并更正发现的任何错误。这需要很长时间(在我们的案例中,要想在大型代码库上工作的生产质量语法,或多或少需要几年的连续工作/改进)。您可能会比这快得多。祝好运。
您需要为COBOL(COPY ... REPLACING)构建一个预处理器,该预处理器的详细信息很少记录,最后为PL / 1(我理解为具有完全的Turing功能)构建另一个预处理器。
构建解析器后,您需要捕获语法树。这里的ANTLR4应该很好,因为它将捕获您提供的语法中的一个。那可能不是您想要的AST;有数千种语法规则,我希望不会。 ANTLR3要求您手动添加在何处以及如何形成AST的指示。
获得AST之后,您将需要对其进行一些处理。这意味着您将至少需要构建符号表(从标识符实例到其声明的映射以及任何相关的类型信息)。 ANTLR除了支持步行AST之外,没有提供支持该AFAIK的特殊功能。这也很难解决,COBOL制定了疯狂的规则,即在没有其他冲突的解释的情况下,如何才能将不合格的标识符引用解释为特定的数据字段。 (如果您想获得有关程序的良好语义信息,那么“解析后的生活”还有很多其他内容;有关更多详细信息,请参见我的简历;对于每个语义方面,您都要进行开发,然后进行验证,然后再在大型代码库上运行它们再次。)。
TL; DR
无论您选择哪种解析引擎,为这些语言构建解析器(嗯,“前端”)都是很多工作。可能会解释为什么它们尚未进入ANTLR的语法动物园。
关于antlr - Antlr和PL/I语法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26377386/
让我们考虑以下 ANTLR4 语法(最小示例): grammar Foo; expr : a? b? c? ; 我如何指定 a、b 或 c 中的至少一个 必须出现在表达式? 基本上我正在寻
我为字符串变量声明写了下面的语法。字符串的定义类似于单引号之间的任何内容,但必须有一种方法可以通过使用 $ 字母转义将单引号添加到字符串值。 grammar test; options {
我最近创建了一个 ANTLR3 解析器规则 options : foo bar; 它没有编译,我花了一些时间才发现 options是一个保留字(AntlrWorks 指出了错误,但没有指出原因)。 A
我正在从“The Definitive Antlr reference”一书中学习 Antlr。我还处于起步阶段。我喜欢动手做东西,所以我认为做一个好的示例项目会是一个很好的学习经验。 我正在寻找一个
我们有一个为 antlr V2 编写的语法,我想迁移到 antlr v4。有迁移指南吗?我还想知道对现有 V2 语法的修改,以便我们更好地利用 v4 功能。 最佳答案 我通过编写一个新的 Antlr
介绍 查看文档,ANTLR 2 曾经有一个叫做 predicated lexing 的东西。 ,有这样的例子(受 Pascal 启发): RANGE_OR_INT : ( INT ".."
我已经开始学习 ANTLR,并且拥有 2007 年的书《The Definitive ANTLR Reference》和 ANTLRWorks(用于创建语法的交互式工具)。而且,作为这样的人,我从第三
我正在开发 D 语言的解析器,当我尝试添加“切片”运算符规则时遇到了麻烦。你可以找到它的ANTLR语法here 。基本上问题是,如果词法分析器遇到这样的字符串:“1..2”,它就会完全丢失,并且最终成
在 ANTLR 语法中,我们如何区分变量名和标识符? VAR: ('A'..'Z')+ DIGIT* ; IDENT : ('a'..'z'|'A'..'Z'|'_') ('a'..'z'|'
我想在 ANTLR 语法中解析 ISO 8601 日期。 2001-05-03 我的语法文件中有以下条目: date : FOUR_DIGIT ('-')? TWO_DIGIT ('-')? T
我们有一个为 antlr V3 编写的语法,我想迁移到 antlr v4。有没有迁移指南。我还想知道对现有 V3 语法的修改,以便我们很好地利用 v4 的功能。 最佳答案 如果您在 v3 或更早版本中
我正在尝试在一台新计算机上使用 ANTLR v4 语法插件在 IntelliJ 中运行一个简单的语法文件。我已经按照在线步骤在 IntelliJ 中安装插件,插件看起来安装正确。我在 .g4 语法文件
我正在使用 ANTLR 为旧的专有报告规范编写一个解析器,目前我正在尝试实现生成的解析树的访问者,以扩展自动生成的抽象访问类。 我对 ANTLR(我最近才学会)和一般的访问者模式都没有什么经验,但是如
我知道插入符号后缀在 antlr 中的含义(即 make root)但是当插入符号是我一直在阅读的以下语法中的前缀时呢(该语法是全新的,由学习 antlr 的新团队完成)。 .. selectClau
我不知道这个问题是否有效,因为我对源代码解析不是很熟悉。我的目标是为一种现有的编程语言(语言“X”)编写一个源代码完成函数,以供学习之用。 Antlr(v4) 是否适合这样的任务,还是应该手动完成必要
请查看源代码:https://gist.github.com/1684022 . 我定义了两个 token : ID : ('a'..'z' | 'A'..'Z') ('0'..'9' | 'a
我知道“+”、“?”和 '*'。但是,如果我希望某事重复 5 次,该怎么办?例如,如果标识符必须是长度为 5 的十六进制数字符串? 更具体地说,我正在考虑定义一个无限长度的通用词法分析器规则,然后在解
如何控制切换Antlr来自解析器操作的词法分析器模式? 我扩展了生成的 Parser 和 Lexer,所以我可以调用 pushMode和 popMode从解析器女巫依次调用合适的pushMode和 p
我正在使用 ANTLR 来标记一个简单的语法,并且需要区分一个 ID: ID : LETTER (LETTER | DIGIT)* ; fragment DIGIT : '
我有一个这样的 ANTLR 规则 receive returns[Evaluator e,String message] : RECEIVE FILENAME {$e= new ReceiveEv
我是一名优秀的程序员,十分优秀!