c - 如何在Flex(词法分析器)中定义数字格式？-6ren

c - 如何在Flex(词法分析器)中定义数字格式？

转载作者：行者123 更新时间：2023-12-02 21:10:07

58

4

我需要什么:

可接受 > 1234 和 12.34

错误( Not Acceptable )> 12.34.56

扫描仪.L:

      ...
%%

[0-9]+                printf("Number ");
[0-9]+"."[0-9]+       printf("Decimal_Number ");
"."                   printf("Dot "):

%%
      ...

编译并运行后:

Input :
1234    12.34    12.34.65

Output :
Number    Decimal_Number      Decimal_Number Dot Number

如何打印 Error 而不是 Decimal_Number Dot Number(或者直接忽略它)？

~~是否可以在数字前后定义空格作为分隔符？~~

最佳答案

通常认为在解析器中检测诸如 12.34.56 之类的错误比在扫描器中检测更好。但也有一种观点认为，您可以通过词法检测错误来生成更好的错误消息。

如果您想这样做，可以使用两种模式；第一个仅检测正确的数字，第二个检测更大的字符串集，包括所有错误的字符串(但不检测任何合法的字符串)。这依赖于 (f)lex 的匹配行为:它始终接受最长的匹配，并且如果最长的标记被两个或多个规则匹配，则它使用第一个匹配规则。

例如，假设您希望接受点本身作为 '.'，数字作为 NUMBER 标记，并对包含多个点的数字字符串产生错误。您可以通过三个规则来做到这一点:

  /* If the token is just a dot, match it here */
\.                             { return '.';    }
  /* Match integers without decimal points */
[[:digit:]]+                   { return INTEGER; }
  /* If the token is a number including a decimal point,
   * match it here. This pattern will also match just '.',
   * but the previous rules will be preferred.) */
[[:digit:]]*\.[[:digit:]]*     { return FLOAT; }
  /* This rule matches any sequence of dots and digits.
   * That will also match single dots and correct numbers, but
   * again, the previous rules are preferred. */
[.[:digit:]]+                  { /* signal error */
                                 return BADNUMBER; }

您需要非常小心地使用上述解决方案。例如，最后一条规则将匹配 .. 和 ...，它们可能是有效的标记(甚至是有效的 . 标记序列。 )

例如，假设您的语言允许使用“范围”表达式，如 4 .. 17(表示从 4 到 17 的整数列表，或类似的值)。您的用户可能期望 4..17 被接受为范围表达式，但即使您添加了规则，上述内容也会产生 BADNUMBER 错误

".."                           { return RANGE; }

在开头，因为 4.. 将在扫描的前一个点匹配 BADNUMBER。

为了避免误报，我们需要修改 BADNUMBER 规则以避免匹配包含两个(或更多)连续点的字符串。我们还需要确保 4..17 不会被词法为 4. 后跟 .17。 (可以通过坚持 . 既不开始也不结束数字标记来避免第二个问题，但这可能会惹恼一些用户。)

所以，我们从实际的点标记开始:

"."                            { return '.'; }
".."                           { return RANGE; }
"..."                          { return ELLIPSIS; }

为了避免过度匹配后跟 .. 的数字，我们可以使用 flex 的尾随上下文运算符。在这里，只有当字符串后面跟着 . 以外的内容时，我们才会将以 . 结尾的数字序列识别为数字:

[[:digit:]]+                   { return INTEGER; }
  /* Change * to + so that we don't do numbers ending with . */
[[:digit:]]*(\.[[:digit:]]+)?  { return FLOAT; }
  /* Numbers which end with dot not followed by dot */
[[:digit:]]+\./[^.]            { return FLOAT; }

现在我们需要修复错误规则。首先，我们将其限制为识别每个点后跟一个数字的字符串。然后，与上面类似，我们匹配尾随点后面没有另一个点的情况:

[[:digit:]]*(\.[[:digit:]]+)+  { return BADNUMBER; }
[[:digit:]]*(\.[[:digit:]]+)+\./[^.] { return BADNUMBER; }

关于c - 如何在Flex(词法分析器)中定义数字格式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33942185/

58

4

0

文章推荐： python-3.x - Kivy 雪碧图

文章推荐： javascript - Nodejs HTTP 重试模式

文章推荐： javascript - 我使用 every() 方法得到不同的结果

文章推荐： compiler-construction - 使用 llvm 库构建时如何链接？

javascript - 词法 this 和闭包
我试图了解传递给 setTimeout 的箭头函数如何记住上一个执行上下文中的 this 的值。我知道在执行箭头函数时会使用词法作用域规则查找 this 值。这是否意味着箭头函数关闭变量和 this
javascript - 词法 `this` 和超时
这个问题已经有答案了: How does the "this" keyword in Javascript act within an object literal? [duplicate] (4 个
c++ - 今天的主流编程语言主要使用动态还是静态(词法)作用域？
我已阅读 this问题，我想我已经理解了投票最多的答案，但他说 since basically every programming language in wide use today uses le
macros - 在宏中使用来自外部(词法)环境的变量
如何让这段宏发挥预期的作用？ -- 我想从词法环境中捕获 p 而不必将其作为参数发送给宏。 (define-syntax-rule (fi a b) (if p a b)) ;--->capt
scope - 静态(词法)作用域与动态作用域(伪代码)
Program A() { x, y, z: integer; procedure B() { y: integer; y=0;
java - 在 Java 中手动排序链表(词法)
我正在用 Java 实现自己的链表。节点类只有一个名为“name”的字符串字段和一个名为“link”的节点。现在我有一个测试驱动程序类，它只按顺序插入几个名字。现在，我正在尝试编写一种排序方法来按字母
c# - 是否可以在不编译的情况下调用 C# 词法/语法分析器？
考虑到这个question SO，其中调用了整个 C# 内存中编译器。只有lexical and syntactic analyzing时是必需的:将文本解析为词素流，检查它们并退出。在System
c# - C# 中类型参数的“词法”范围
我有 2 个场景。这失败了: class F { public X X { get; set; } } 错误 CS0102:类型“F” ' 已经包含 ' X 的定义| ' 这个有效: class
javascript - 需要帮助理解 Javascript 中的(词法)变量范围
我有一个用 NodeJS 执行的 .js 文件。这是我的文件的内容: var ctry = "America"; function outer(msg) { console.log(msg +
parsing - 编写 Z80 汇编程序 - 词法 ASM 并使用组合构建解析树？
我对编写汇编程序的概念非常陌生，即使在阅读了大量 Material 之后，我仍然很难理解几个概念。将源文件实际分解为 token 的过程是什么？我相信这个过程称为词法分析，我已经到处搜索有意义的真实
javascript - 在静态(词法)作用域中，变量/声明标识符何时绑定(bind)？
在 static scoping,标识符可以通过分析/解析源代码来确定(与动态作用域不同，动态作用域或多或少需要了解调用者环境)。我的问题是这样的，因为静态作用域只需要解析源代码以了解作用域和标识符
dynamic - Common Lisp 作用域(动态 vs 词法)
编辑:我在第一个答案后更改了示例代码，因为我想出了一个简单的版本来回避相同的问题。我目前正在学习 Common Lisp 的作用域属性。在我认为我有一个坚实的理解之后，我决定编写一些我可以预测结果的
python - 如何在 Python 中静态(词法)绑定(bind)名称？
考虑这段代码: class Bar(object): pass class Foo(object): def bar(self): return Bar() f = Foo() def Bar
javascript - 将 jQuery $(this) 与 ES6 箭头函数结合使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常棒。但是，我刚才在使用典型的 jQuery 单击绑定(bind)时遇到了一个问题: class Game { foo() {
javascript - 将 jQuery $(this) 与 ES6 箭头函数一起使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常好。但是，我刚才在将它与典型的 jQuery 点击绑定(bind)一起使用时遇到了一个问题: class Game { foo(

首页

博学

6Ren·AI

商城

c - 如何在Flex(词法分析器)中定义数字格式？