c - 如何在Flex(词法分析器)中定义数字格式？-6ren

c - 如何在Flex(词法分析器)中定义数字格式？

转载作者：行者123 更新时间：2023-12-02 04:15:37

我需要什么:

可接受 > 1234 和 12.34

错误( Not Acceptable )> 12.34.56

扫描仪.L:

      ...
%%

[0-9]+                printf("Number ");
[0-9]+"."[0-9]+       printf("Decimal_Number ");
"."                   printf("Dot "):

%%
      ...

编译并运行后:

Input :
1234    12.34    12.34.65

Output :
Number    Decimal_Number      Decimal_Number Dot Number

如何打印 Error 而不是 Decimal_Number Dot Number(或者直接忽略它)？

~~是否可以在数字前后定义空格作为分隔符？~~

最佳答案

通常认为在解析器中检测诸如 12.34.56 之类的错误比在扫描器中检测更好。但也有一种观点认为，您可以通过词法检测错误来生成更好的错误消息。

如果您想这样做，可以使用两种模式；第一个仅检测正确的数字，第二个检测更大的字符串集，包括所有错误的字符串(但不检测任何合法的字符串)。这依赖于 (f)lex 的匹配行为:它始终接受最长的匹配，并且如果最长的标记被两个或多个规则匹配，则它使用第一个匹配规则。

例如，假设您希望接受点本身作为 '.'，数字作为 NUMBER 标记，并对包含多个点的数字字符串产生错误。您可以通过三个规则来做到这一点:

  /* If the token is just a dot, match it here */
\.                             { return '.';    }
  /* Match integers without decimal points */
[[:digit:]]+                   { return INTEGER; }
  /* If the token is a number including a decimal point,
   * match it here. This pattern will also match just '.',
   * but the previous rules will be preferred.) */
[[:digit:]]*\.[[:digit:]]*     { return FLOAT; }
  /* This rule matches any sequence of dots and digits.
   * That will also match single dots and correct numbers, but
   * again, the previous rules are preferred. */
[.[:digit:]]+                  { /* signal error */
                                 return BADNUMBER; }

您需要非常小心地使用上述解决方案。例如，最后一条规则将匹配 .. 和 ...，它们可能是有效的标记(甚至是有效的 . 标记序列。 )

例如，假设您的语言允许使用“范围”表达式，如 4 .. 17(表示从 4 到 17 的整数列表，或类似的值)。您的用户可能期望 4..17 被接受为范围表达式，但即使您添加了规则，上述内容也会产生 BADNUMBER 错误

".."                           { return RANGE; }

在开头，因为 4.. 将在扫描的前一个点匹配 BADNUMBER。

为了避免误报，我们需要修改 BADNUMBER 规则以避免匹配包含两个(或更多)连续点的字符串。我们还需要确保 4..17 不会被词法为 4. 后跟 .17。 (可以通过坚持 . 既不开始也不结束数字标记来避免第二个问题，但这可能会惹恼一些用户。)

所以，我们从实际的点标记开始:

"."                            { return '.'; }
".."                           { return RANGE; }
"..."                          { return ELLIPSIS; }

为了避免过度匹配后跟 .. 的数字，我们可以使用 flex 的尾随上下文运算符。在这里，只有当字符串后面跟着 . 以外的内容时，我们才会将以 . 结尾的数字序列识别为数字:

[[:digit:]]+                   { return INTEGER; }
  /* Change * to + so that we don't do numbers ending with . */
[[:digit:]]*(\.[[:digit:]]+)?  { return FLOAT; }
  /* Numbers which end with dot not followed by dot */
[[:digit:]]+\./[^.]            { return FLOAT; }

现在我们需要修复错误规则。首先，我们将其限制为识别每个点后跟一个数字的字符串。然后，与上面类似，我们匹配尾随点后面没有另一个点的情况:

[[:digit:]]*(\.[[:digit:]]+)+  { return BADNUMBER; }
[[:digit:]]*(\.[[:digit:]]+)+\./[^.] { return BADNUMBER; }

关于c - 如何在Flex(词法分析器)中定义数字格式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33942185/

文章推荐： methods - 我能让 Julia 忘记 REPL 中的方法吗

文章推荐： python-3.x - Kivy 雪碧图

文章推荐： compiler-construction - 使用 llvm 库构建时如何链接？

文章推荐： scala - apache flink : how to interpret DataStream. 打印输出？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 如何在Flex(词法分析器)中定义数字格式？