gpt4 book ai didi

c++ - 在Flex中匹配C样式多行注释的最佳解决方案?

转载 作者:行者123 更新时间:2023-12-01 14:51:33 25 4
gpt4 key购买 nike

我已经收集了很多在flex中匹配C样式多行注释的解决方案:
(1)忘记引用

"/*"                    { BEGIN COMMENT; }
<COMMENT>"*/" { BEGIN INITIAL; }
<COMMENT>([^*]|\n)+|. { /* skip everything */ }
<COMMENT><<EOF>> {
fatal_error("unterminated comment!");
return 0;
}
(2) https://www.cs.virginia.edu/~cr4bd/flex-manual/How-can-I-match-C_002dstyle-comments_003f.html#How-can-I-match-C_002dstyle-comments_003f
<INITIAL>{
"/*" BEGIN(IN_COMMENT);
}
<IN_COMMENT>{
"*/" BEGIN(INITIAL);
[^*\n]+ // eat comment in chunks
"*" // eat the lone star
\n yylineno++;
}
(3)丢弃 https://www.cs.virginia.edu/~cr4bd/flex-manual/Start-Conditions.html#Start-Conditions中的C注释
%x comment
%%
int line_num = 1;

"/*" BEGIN(comment);

<comment>[^*\n]* /* eat anything that's not a '*' */
<comment>"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */
<comment>\n ++line_num;
<comment>"*"+"/" BEGIN(INITIAL);
(4) difficulty getting c-style comments in flex/lex
"/*"((("*"[^/])?)|[^*])*"*/" 
(5) https://stackoverflow.com/a/13368522/4438921
"/*"((\*+[^/*])|([^*]))*\**"*/"
(6)这实际上是一个用于匹配C样式多行注释的正则表达式字符串,我不确定是否可以为flex重写: https://stackoverflow.com/a/36328890/4438921
String pat = "/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/";
哪一个最好?

最佳答案

给出的所有模式实际上都不适合C或C++,因为它们没有考虑行拼接或三字组。 (现在您可能会认为三字母组合是不必要的,我也不会反对,但是即使现在不推荐使用它们,您仍可能需要处理使用它们的旧文件。)
(对于既不是C也不是C++,但具有类似的多行注释的语言,这可能不是考虑因素。在那种情况下,这是在整体正则表达式和开始条件之间的折腾,但是我会选择开始条件为了避免评论过长而导致速度变慢。)
虽然您可以编写包含接头的整体式正则表达式,但如果使用基于启动条件的解决方案,则会发现编写(和读取)起来要容易得多。从flex手册中摘录的两者中,我认为(3)的性能略高,尽管在这两种情况下,我都倾向于让flex进行行号计数,而不是尝试明确地进行行数计数。即使%option yylineno一次与注释匹配一行也是一个好主意,因为注释可能会很长,并且flex已针对不超过约8k的 token 进行了优化。
要处理线接头,您可以将其修改为:

%option yylineno
%x COMMENT
splice (\\[[:blank:]]*\n)*
%%
[/]{splice}[*] BEGIN(COMMENT);

<COMMENT>{
[^*\\\n]+ /* eat anything that's not a '*' or line end */
"*"+[^*/\\\n]* /* eat up '*'s not followed by '/'s or line end */
[*]{splice}[/] BEGIN(INITIAL);
[*\\] /* stray '*' or backslash */
\n /* Reduce the amount of work needed for yylineno */
}
如果要处理三字组合,则需要扩展 splice的定义,并向 <COMMENT>中的 ?添加更多规则。
行接头是行尾的反斜杠,表示下一行是连续行。反斜杠和换行符将从输入文本中删除,因此,续行的最后一个字符紧跟在续行的第一个字符之后。因此,以下是有效的注释:
/\
************** START HERE **************\
/
Gcc和clang(以及可能的其他编译器)允许在反斜杠字符后跟空格,因为否则否则有效连续符和杂散反斜杠之间的区别是不可见的。
延续行几乎在任何其他处理之前进行处理,因此可以将它们放在字符串文字,注释或任何标记中。它们通常在 #define预处理程序指令中使用,以符合预处理程序指令为单个输入行的要求。但是,有意混淆C代码的人可以更自由地使用它们。例如,它们可以用于将C++样式的单行注释扩展到多个物理行:
// This is a comment...\
which extends over...\
three lines.
在行连续之前发生的唯一处理是三字图处理。您可以在Wikipedia(或其他地方)上搜索三联字母;我将自己限制为注意反斜杠是具有三字符组合等效字符 ??/的字符之一。由于三字组合是在续行之前处理的,因此可以编写第一个拼接的多行注释示例:
/??/
************** START HERE **************\
/
有些编译器默认情况下不处理三字母组合。如果看到了三部曲,他们可能会发出警告。例如,如果要在gcc上尝试上述操作,则需要指定ISO C标准(例如 -std=c11)或提供 -trigraphs命令行标志。

关于c++ - 在Flex中匹配C样式多行注释的最佳解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63498267/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com