c - 在 C 中编写语法标记器/解析器的最佳方法是什么？-6ren

c - 在 C 中编写语法标记器/解析器的最佳方法是什么？

转载作者：行者123 更新时间：2023-12-03 18:52:16

关闭。这个问题需要更多focused .它目前不接受答案。

想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post .

4年前关闭。

Improve this question

背景资料:
我渴望制作一种编程语言，知道这样做的工具，但我没有任何关于如何使用它们的好例子。我真的不想使用 Flex 或 Bison，因为它们没有教授我认为创建编译器所需的抽象性。我有创建字符串、标记它们、将它们提供给充当语法和解析的文件的概念，最终创建一个实际的程序来运行该语言。问题是，我不知道如何编写标记器或解析器。我有一般的想法，但当我看到例子时我会更好地理解。如果有人可以发布一个/几个示例，那就太好了!

我的问题如下:
有人可以发布如何在 C 中编写语法标记器/解析器的示例吗？

最佳答案

如果你想用 C 编写一个非常复杂的语法解析器，而不使用任何现有的模式匹配代码，通常最好实现一个状态机，然后一个字符一个字符地处理源代码。
Flex+Bison 的输出也只是一个状态机。 Flex 使用正则表达式将字符串标记为标记，然后将这些标记传递给 Bison 状态机，根据机器的当前状态一个接一个地处理标记。但是您不需要正则表达式标记器，您可以将输入标记为状态机处理的一部分。正则表达式匹配器本身也可以实现为状态机，因此 token 生成可以直接成为状态机的一部分。
这是一个有趣的链接；它不是特别是 C，而是状态机如何工作的一般概述，但是一旦您掌握了概念，就很容易将其转换为 C 代码:
Parsing command line arguments using a finite state machine and backtracking
下面是一些 super 原语的示例代码 CSV解析器:

#include <stdlib.h>
#include <stdio.h>

static char currentToken[4096];
static size_t currentTokenLength;

static
void addCharToCurrentToken ( char c ) {
    if (currentTokenLength < sizeof(currentToken)) {
        currentToken[currentTokenLength++] = c;
    }
}

static
void printCurrentToken ( ) {
    printf("Token: >>>%.*s<<<\n", (int)currentTokenLength, currentToken);
    currentTokenLength = 0;
}


typedef enum {
    STATE_FindStartOfData,
    STATE_FindStartOfToken,
    STATE_ParseNumber,
    STATE_ParseString,
    STATE_CheckEndOfString,
    STATE_FindDelimiter,
    STATE_ParseError,
    STATE_EndOfData
} ParserState;


ParserState parserState = STATE_FindStartOfData;


static
void runTheStateMachine ( ) {
    while (parserState != STATE_ParseError
            && parserState != STATE_EndOfData
    ) {
        int c = fgetc(stdin);
        // End of data?
        if (c == -1) {
            switch (parserState) {
                case STATE_ParseNumber:
                case STATE_CheckEndOfString:
                    printCurrentToken();
                    parserState = STATE_EndOfData;
                    break;

                case STATE_ParseString:
                    // Data ends in the middle of token parsing? No way!
                    fprintf(stderr, "Data ended abruptly!\n");
                    parserState = STATE_ParseError;
                    break;

                case STATE_FindStartOfData:
                case STATE_FindStartOfToken:
                case STATE_FindDelimiter:
                    // This is okay, data stream may end while in these states
                    parserState = STATE_EndOfData;
                    break;

                case STATE_ParseError:
                case STATE_EndOfData:
                    break;
            }
        }

        switch (parserState) {
                case STATE_FindStartOfData:
                    // Skip blank lines
                    if (c == '\n' || c == '\r') break;
                    // !!!FALLTHROUGH!!!

                case STATE_FindStartOfToken:
                    // Skip overe all whitespace
                    if (c == ' ' || c == '\t') break;
                    // Start of string?
                    if (c == '"') {
                        parserState = STATE_ParseString;
                        break;
                    }
                    // Blank field?
                    if (c == ',') {
                        printCurrentToken();
                        break;
                    }
                    // End of dataset?
                    if (c == '\n' || c == '\r') {
                        printf("------------------------------------------\n");
                        parserState = STATE_FindStartOfData;
                        break;
                    }
                    // Everything else can only be a number
                    parserState = STATE_ParseNumber;
                    addCharToCurrentToken(c);
                    break;

                case STATE_ParseNumber:
                    if (c == ' ' || c == '\t') {
                        // Numbers cannot contain spaces in the middle,
                        // so this must be the end of the number.
                        printCurrentToken();
                        // We still need to find the real delimiter, though.
                        parserState = STATE_FindDelimiter;
                        break;
                    }
                    if (c == ',') {
                        // This time the number ends directly with a delimiter
                        printCurrentToken();
                        parserState = STATE_FindStartOfToken;
                        break;
                    }
                    // End of dataset?
                    if (c == '\n' || c == '\r') {
                        printCurrentToken();
                        printf("------------------------------------------\n");
                        parserState = STATE_FindStartOfData;
                        break;
                    }
                    // Otherwise keep reading the number
                    addCharToCurrentToken(c);
                    break;

                case STATE_ParseString:
                    if (c == '"') {
                        // Either this is the regular end of the string or it is just an
                        // escaped quotation mark which is doubled ("") in CVS.
                        parserState = STATE_CheckEndOfString;
                        break;
                    }
                    // All other chars are just treated as ordinary chars
                    addCharToCurrentToken(c);
                    break;

                case STATE_CheckEndOfString:
                    if (c == '"') {
                        // Next char is also a quotation mark,
                        // so this was not the end of the string.
                        addCharToCurrentToken(c);
                        parserState = STATE_ParseString;
                        break;
                    }
                    if (c == ' ' || c == '\t') {
                        // It was the end of the string
                        printCurrentToken();
                        // We still need to find the real delimiter, though.
                        parserState = STATE_FindDelimiter;
                        break;
                    }
                    if (c == ',') {
                        // It was the end of the string
                        printCurrentToken();
                        // And we even found the delimiter
                        parserState = STATE_FindStartOfToken;
                        break;
                    }
                    if (c == '\n' || c == '\r') {
                        // It was the end of the string
                        printCurrentToken();
                        // And we even found the end of this dataset
                        printf("------------------------------------------\n");
                        parserState = STATE_FindStartOfData;
                        break;
                    }
                    // Everything else is a parse error I guess
                    fprintf(stderr, "Unexpected char 0x%02X after end of string!\n", c);
                    parserState = STATE_ParseError;
                    break;

                case STATE_FindDelimiter:
                    // Delemiter found?
                    if (c == ',') {
                        parserState = STATE_FindStartOfToken;
                        break;
                    }
                    // Just skip overe all whitespace
                    if (c == ' ' || c == '\t') break;
                    // End of dataset?
                    if (c == '\n' || c == '\r') {
                        // And we even found the end of this dataset
                        printf("------------------------------------------\n");
                        parserState = STATE_FindStartOfData;
                        break;
                    }
                    // Anything else a pare error I guess
                    fprintf(stderr, "Unexpected char 0x%02X after end of token!\n", c);
                    parserState = STATE_ParseError;
                    break;

                case STATE_ParseError:
                    // Nothing to do
                    break;

                case STATE_EndOfData:
                    // Nothing to do
                    break;
        }
    }
}

int main ( ) {
    runTheStateMachine();
    return (parserState == STATE_EndOfData ? 0 : 1);
}

该代码做出以下假设:

token 永远不会超过 4096 个字符。

分隔符是逗号
(这就是 CVS 所暗示的，但并非所有 CVS 文件都为此使用逗号)

字符串总是被引用
(通常这是可选的，除非它们包含空格或引号)

带引号的字符串内没有换行符
(这通常是允许的)

该代码假定所有未引用的都是数字，但它不会验证数字的格式是否正确。

此代码绝对无法解析您提供的任何 CSV 数据，但是当您提供该文件时:

"Year","Brand","Model"   ,"Description",  "Price"
    1997,"Ford", "E350","ac, abs, moon", 3000.00
1999,"Chevy","Venture ""Extended Edition""",,4900.00
 1999,"Chevy",     "Venture ""Extended Edition, Very Large"""  ,  , 5000.00
1996,"Jeep", "Grand Cherokee","MUST SELL!"

它将产生以下输出:

Token: >>>Year<<<
Token: >>>Brand<<<
Token: >>>Model<<<
Token: >>>Description<<<
Token: >>>Price<<<
------------------------------------------
Token: >>>1997<<<
Token: >>>Ford<<<
Token: >>>E350<<<
Token: >>>ac, abs, moon<<<
Token: >>>3000.00<<<
------------------------------------------
Token: >>>1999<<<
Token: >>>Chevy<<<
Token: >>>Venture "Extended Edition"<<<
Token: >>><<<
Token: >>>4900.00<<<
------------------------------------------
Token: >>>1999<<<
Token: >>>Chevy<<<
Token: >>>Venture "Extended Edition, Very Large"<<<
Token: >>><<<
Token: >>>5000.00<<<
------------------------------------------
Token: >>>1996<<<
Token: >>>Jeep<<<
Token: >>>Grand Cherokee<<<
Token: >>>MUST SELL!<<<
------------------------------------------

它只应该让您了解如何使用状态机解析复杂的语法。此代码远非生产质量，如您所见，例如 switch很快就会变得巨大，所以我至少会将状态代码放入函数中，甚至将每个状态都转换为结构或对象之类的东西用于数据封装，否则整个事情很快就会变得无法管理。

关于c - 在 C 中编写语法标记器/解析器的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40539418/

文章推荐： google-analytics - 购买未显示在 GA4 货币化中

文章推荐： iphone - 通过空格将 1 个 NSString 分成两个 NSString

文章推荐： iphone - iOS 5 深度 sleep 预防

语法
在此处回答的另一个问题中，我发现了以下 JavaScript代码: function _dom_trackActiveElement(evt) { if (evt && evt.target)
语法
if (A == 0) OR (B == 0) 怎么说？最佳答案只是为了讽刺: if (A === 0 || B === 0) 关于语法，我们在Stack Overflow上找到一个类似的问题：
语法
var ret = [] ,xresult = document.evaluate(exp, rootEl, null, X
语法
我一直在寻找一些类似于下例的 JavaScript。有人可以解释一下吗，因为我以前从未见过这样编写的 JavaScript。 “SomethingHere”和冒号代表什么？我习惯于看到函数 myFun
mysql程序: syntax,语法，语法……太难找了
这是我的程序: delimiter // drop procedure if exists migContactToActor; create procedure migContactToActor(
c - 从 icc 获取 Intel 语法 asm 输出，而不是默认的 AT&T 语法？
我遇到了一个问题。我一直在使用 gcc 编译/汇编我的 C 代码一段时间，并且习惯了阅读 Intel 汇编语法。我在生成程序集文件时使用了 -masm=intel 标志。但是最近因为公司迁移，拿到了
语法:自上而下和自下而上的区别？
自上而下和自下而上语法有什么区别？举个例子就太好了。最佳答案首先，语法本身不是自上而下或自下而上的，解析器是(尽管有些语法可以被其中一个解析，但不能被另一个解析)。从实践的角度来看，主要区别在于
AppleScript 语法
我知道这是草率的代码，但它是: display dialog ("Start Screensaver. Please type: matrix, coffee, waffles, star, wate
Java 语法 ": "
这个问题已经有答案了: Giving name to a loop (6 个回答) 已关闭 8 年前。我见过这个字符在 C# 中使用，就像 Java 中的扩展一样，但最近我在代码中发现了这个 loo
在函数中通过指针调用字符串(语法)
我正在尝试编写一个函数来检查字符串是否为回文，但我认为在使用字符串指针时存在一些错误。这段代码有什么问题？ #include #include #define MAX 1000 int IsPalin
Javascript "for"语法
所以在this question我询问了一些 Javascript 是如何被压缩的。问题已得到解答，但以下片段让我非常困惑，以至于我不得不问另一个问题。在这里: for (Y = 0; $ = 'zx
调用函数指针(语法)
假设我有一个接受这些参数的函数。 int create(Ptr * p,void * (*insert)(void *, void *)) { //return something later } 结
C语言未知&语法
这个问题已经有答案了: Bitwise '&' operator (6 个回答) 已关闭 5 年前。我在代码中找到了这个，但我从未遇到过像 & 这样的事情，仅 && if ((code & 1) =
使用继承的c++语法
我在处理继承类及其中的构造函数和方法的语法时遇到了问题。我想实现一个类日期和一个子类 date_ISO，它们将按特定顺序设置给定的日、月、年，并通过一种方法将其写入字符串。我觉得我的基类日期工作正常
MySQL IF THEN AS 语法
我正在尝试通过存储过程填充表，如下所示: SET @resultsCount = (SELECT COUNT(*) FROM tableA); SET @i = 0; WHILE @i THEN
Bash 语法 : What is the "<<"?
谁能解释一下下面代码中的“<<”？ mysql test<
MySQL OR AND 语法
刚刚开始学习 MySQL，这是一个菜鸟问题，也是我在 StackOverflow 上的第一个问题。假设我有 12 个订单状态，我想从其中的 5 个中选择总计。我会使用: SELECT SUM(tot
JavaScript 语法
我的编程背景是在学校学过一点Java。由于某些原因，JavaScript 语法往往让我感到困惑。下面的 JavaScript 代码是一种我不知道如何构成的语法模式: foo.ready = funct
JavaScript 语法 $
我正在阅读 javascript 源代码，并且我以前没有编写过 javascript。我对它的一些语法感到困惑。 $(function () { window.onload=function
JavaScript 语法？
我什至不知道如何命名我想要的东西。那么让我举个例子来解释一下。虽然火狐使用textContent，但其他浏览器支持innerText属性。顺便说一句，如果我使用了错误的术语，请纠正我。无论如何，到目

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 在 C 中编写语法标记器/解析器的最佳方法是什么？