regex - Flex 中的非贪婪正则表达式匹配-6ren

regex - Flex 中的非贪婪正则表达式匹配

转载作者：行者123 更新时间：2023-12-02 17:09:12

24

4

我刚刚开始使用 Flex，似乎不知道如何匹配以下表达式:

"Dog".*"Cat"
------------------
Input :
Dog Ca Cat Cc Cat
------------------
Output:
Dog Ca Cat Cc Cat

但我想要一个非贪婪匹配，输出如下:

Output:
Dog Ca Cat

如何在 Flex 上实现这一点？

编辑

尝试了以下方法:

%%
Dog.*Cat/.*Cat  printf("Matched : ||%s||", yytext);
dog.*cat        printf("Matched : ||%s||", yytext);
dOg[^c]*cAt     printf("Matched : ||%s||", yytext);
DOG.*?CAT       printf("Matched : ||%s||", yytext);
%%

输入:

Dog Ca Cat Cc Cat
dog Ca cat Cc cat
dOg Ca cAt Cc cAt
DOG CA CAT CC CAT

输出:

Matched : ||Dog Ca Cat Cc Cat||
Matched : ||dog Ca cat Cc cat||
Matched : ||dOg Ca cAt|| Cc cAt
Matched : ||DOG CA CAT CC CAT||

还收到警告:

lex4.l:2: warning, dangerous trailing context

Flex 版本:

flex 2.5.35 Apple(flex-31)

最佳答案

这是使用 lex/flex 工具的一个常见问题，困扰着初学者(有时甚至是非初学者)。该问题有两种解决方案，需要工具的两种不同的高级功能。像 dog ... cat 这样的短语与各种编程语言中的匹配注释的问题非常相似，例如 C 注释形式 /* ... */ 甚至'comment' ... 'tnemmoc'。它们具有与您的示例完全相同的特征。考虑以下C代码:

/* This is a comment */ "This is a String */"

贪婪的词法匹配会匹配错误的注释终止符(顺便说一句，这是对学生词法分析器的一个很好的测试!)。

一些大学编译器类(class)提供了建议的解决方案。解释得很好的是 here (at Manchester) 。其中引用了几本也涵盖了这些问题的好书:

J.Levine、T.Mason 和 D.Brown:Lex 和 Yacc(第二版)
M.E.Lesk 和 E.Schmidt:Lex - 词法分析器生成器

所描述的两种技术是使用Start Conditions明确指定状态机，或 manual input直接读取字符。

对于您的猫...狗问题，可以通过以下方式对其进行编程:

启动条件

在此解决方案中，我们需要多个状态。关键字dog导致其进入DOG状态，该状态一直持续到遇到字母c为止。然后进入LETTERC状态，后面必须跟一个字母a，如果不是，则继续DOG状态；字母 a 会导致进入 CAT 状态，该状态后面必须跟有字母 t，这会导致整个短语匹配并返回INITIAL 状态。 yymore 导致整个 dog ... cat 文本被保留以供使用。

%x DOG LETTERC CAT
d [dD]
o [oO]
g [gG]
c [cC]
a [aA]
t [tT]
ws [ \t\r\n]+
%%

<INITIAL>{d}{o}{g} {
        BEGIN(DOG);
        printf("DOG\n");
        yymore();
        }
<DOG>[^cC]*{c} {
        printf("C: %s\n",yytext);
        yymore();
        BEGIN(LETTERC);
        }
<LETTERC>{a} {
       printf("A: %s\n",yytext);
       yymore();
       BEGIN(CAT);
      }
<LETTERC>[^aA] {
        BEGIN(DOG);
        yymore();
        }
<CAT>{t} {
        printf("CAT: %s\n",yytext);
        BEGIN(INITIAL);
        }
<CAT>[^tT] {
        BEGIN(DOG);
        yymore();
        }
<INITIAL>{ws}  /* skip */ ;

手动输入

手动输入法仅匹配起始短语dog和输入的C代码，该代码会吞噬输入字符，直到出现所需的cat序列。遭遇。 (我没有理会大小写字母)。此解决方案的问题在于，很难在 yytext 中保留输入文本值以供以后在解析器中使用。它会丢弃它，如果构造是注释，那么这就没问题，但否则就没那么有用了。

d [dD]
o [oO]
g [gG]
ws [ \t\r\n]+
%%
{d}{o}{g}   {
   register int c;

                     for ( ; ; )
                         {
                         /* Not dealt with upper case .. left as an exercise */
                         while ( (c = input()) != 'c' &&
                                 c != EOF )
                             ;    /* eat up text of dog */

                         if ( c == 'c' )
                             {
                              if ( ( c = input()) == 'a' )
                                     if ( (c = input()) == 't' )
                                 break;    /* found the end */
                             }
                        if ( c == EOF )
                             {
                             REJECT;
                             break;
                             }
                         }
            /* because we have used input() yytext always contains "dog" */
            printf("cat: %s\n", yytext);
       }
{ws}  /* skip */ ;

(这两种解决方案都经过测试)

关于regex - Flex 中的非贪婪正则表达式匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19488772/

24

4

0

文章推荐： asp.net - 在64位环境下调试c#代码时出错

文章推荐： javafx-2 - 如何可靠地获取 JavaFX 标签或工具栏的边界？

文章推荐： isabelle - 伊莎贝尔案例分析

文章推荐： ethereum - Gas资金不足*价格+值(value)错误

Java正则表达式(贪婪/非贪婪)
因此，我尝试将以下两组格式分开: FIRST - GrouP second.group.txt 第一组可以包含任意字符第二组是点(.) 分隔的字符串。我使用以下正则表达式来
php - 正则表达式，贪婪 |
几个星期以来，我一直在使用 php 中的正则表达式。现在我的问题是:有什么办法可以让 RegEx 贪婪 | 吗？例如主题:012345abcdefghijklm pattern: /(abcde|a
小议正则表达式效率贪婪、非贪婪与回溯
先扫盲一下什么是正则表达式的贪婪，什么是非贪婪？或者说什么是匹配优先量词，什么是忽略优先量词？好吧，我也不知道概念是什么，来举个例子吧。某同学想过滤之间的内容，那是这么写正则以及程序的。复制
Python正则表达式教程之三：贪婪/非贪婪特性
之前已经简单介绍了Python正则表达式的基础与捕获，那么在这一篇文章里，我将总结一下正则表达式的贪婪/非贪婪特性。贪婪默认情况下，正则表达式将进行贪婪匹配。所谓“贪婪”，其实就
CS50 PSET 1 贪婪
我对编程真的很陌生，我刚刚开始在哈佛的 CS50 上尝试一些问题集。如果有人能向我指出为什么我的代码是错误的，我将不胜感激。编译并运行代码后，没有任何输出。另一方面，有人可以向我解释一下“roun
CS50 PS 1 贪婪
寻求一些关于为什么运行如此奇怪的建议。超过 .25 的所有内容都可以正常工作，但是低于 .25 的任何内容都可以正常工作，我会得到一些非常奇怪的结果。怎么了？ #include #include
cs50 pset1 贪婪。我不必使用％？
这是我的 pset1 贪婪代码。现在，据我所知，这一切都有效，并且经过测试并使用了 cs50 检查... 问题是在演练中暗示了我必须查找如何正确使用 round，我也许应该在某个地方使用模块化？我明白
c# - 正则表达式匹配(贪婪/不贪婪？)
我在“分离”这些数据时遇到了一些麻烦。虽然辅助函数等是一个选项，但我真的很想只使用正则表达式来解决这个问题(并在匹配后处理匹配组)。这是我拥有的(部分)数据: Belgium Belgium M_F
CS50 PSet 1 贪婪
我正在编写一个程序，它接受输入并打印出使用的最少数量的硬币。当我运行程序并输入内容时，它没有按预期工作并且不打印任何内容。我在这里做错了什么？ #include #include int main
java - 惰性(贪婪)使用正则表达式匹配多个组
我想抓取对之间任何值的内容标签。 This is one block of text This is another one 我想出的正则表达式是 /(.*)/m 虽然，它看起来很贪心，并
regex - 懒惰，贪婪，还是什么？寻找权威的正则表达式引用
这个问题在这里已经有了答案: Reference - What does this regex mean? (1 个回答) 关闭 1 年前。最近，在网络*的某个地方，我找到了正则表达式的引用，它描
CS50 PSET1 贪婪 - 分配错误并使用模 (C)
编译此代码时出现错误。 Z 是找零所需的最终硬币数量，目标是使用最少数量的硬币。我在顶部附近定义了int Z = 0。我尝试再次添加 int z 并将 print 语句中的类型更改为 f 但没有成功。
PHP 正则表达式效率贪婪、非贪婪与回溯分析(推荐)
先扫盲一下什么是正则表达式的贪婪，什么是非贪婪？或者说什么是匹配优先量词，什么是忽略优先量词？好吧，我也不知道概念是什么，来举个例子吧。某同学想过滤之间的内容，那是这么写正则以及程序的。
Java - farkle(贪婪)游戏(骰子和玩家数组，多个类)
我正在尝试为像 Farkle(贪婪)游戏这样的命令编写代码。这是计算机科学入门类(class)。简而言之，您掷出 6 个骰子，分数取决于您掷出的骰子。然后，您需要移除已使用的骰子 -> 显示该骰子的分
python - 最长公共(public)子序列，python，贪婪
我已经提交了两个序列的LCS问题的代码草案。我在尝试贪婪时犯了严重的错误，现在我已经实现了我相信这个问题的稳定贪婪算法。虽然我有两个问题，在线类(class)的这一部分，当我提交它时它说序列 [1,2
regex - 贪婪 vs. 不情愿 vs. 占有限定词
我找到了这个tutorial关于正则表达式，虽然我直观地理解“贪婪”、“不情愿”和“占有”限定符的作用，但我的理解似乎存在严重漏洞。具体来说，在以下示例中: Enter your regex: .*
c - 我的代码有什么问题(CS50 2012 Pset 1 贪婪)
我正在尝试制作一个程序，提供最少数量的硬币找零，但如果我给出的数字不是可分为四等分的数字，它就会惨败。例如，如果我输入 1.25，我会得到 5 个 25 美分，但如果我输入 1.26，我会得到 5 个
machine-learning - 最优 epsilon(ε-贪婪)值
ϵ-贪婪策略我知道 Q-learning 算法应该尝试在探索和利用之间取得平衡。由于我是该领域的初学者，因此我想实现一个简单版本的探索/利用行为。最佳 epsilon 值我的实现使用 ϵ 贪婪策略
machine-learning - epsilon 贪婪 q 学习中的 epsilon 和学习率衰减
据我所知，epsilon 标志着探索和利用之间的权衡。一开始，你希望 epsilon 较高，这样你才能取得大的进步并学到东西。当您了解 future 的奖励时，epsilon 应该衰减，以便您可以利用

首页

博学

6Ren·AI

商城