c - 在 Flex 中使用多个缓冲区时，如何避免标记在缓冲区之间拆分-6ren

c - 在 Flex 中使用多个缓冲区时，如何避免标记在缓冲区之间拆分

转载作者：太空宇宙更新时间：2023-11-04 02:30:12

假设我有一个由逗号分隔的正整数和字母字符串的简单语法。我想使用 Flex 和 Bison 解析这个语法，并且我想使用 Flex 的多个输入缓冲区，无论出于何种原因(可能是数据通过网络或串行线路或其他原因到达)。我看到的问题是，当一个字符串或一个整数(它们都是可变长度标记)在一个缓冲区的末尾和下一个缓冲区的开头之间拆分时，词法分析器报告两个标记，而实际上应该只有一个。

在下面的示例中， block 是 10, asdf 和 g,。如果这一切都在一个缓冲区中，它将产生标记 INT(10) COMMA STR(asdfg) COMMA .但是由于 'g' 位于与 'asdf' 不同的缓冲区中，词法分析器实际上生成 INT(10) COMMA STR(asdf) STR(g) 逗号。看起来到达缓冲区末尾的逻辑是(1)检查输入是否与 token 匹配，(2)重新填充缓冲区。我觉得应该反过来:(2)重新填充缓冲区，(1)检查输入是否与 token 匹配。

我想确保我改变缓冲区的方式没有做一些愚蠢的事情。

标准输出/标准错误:

read_more_input: Setting up buffer containing: 10,
--accepting rule at line 48 ("10")
Starting parse
Entering state 0
Reading a token: Next token is token INT_TERM ()
Shifting token INT_TERM ()
Entering state 1
Return for a new token:
--accepting rule at line 50 (",")
Reading a token: Next token is token COMMA ()
Shifting token COMMA ()
Entering state 4
Reducing stack by rule 2 (line 67):
   $1 = token INT_TERM ()
   $2 = token COMMA ()
-> $$ = nterm int_non_term ()
Stack now 0
Entering state 3
Return for a new token:
--(end of buffer or a NUL)
--EOF (start condition 0)
read_more_input: Setting up buffer containing: asdf
--(end of buffer or a NUL)
--accepting rule at line 49 ("asdf")
Reading a token: Next token is token STR_TERM ()
Shifting token STR_TERM ()
Entering state 6
Return for a new token:
--(end of buffer or a NUL)
--EOF (start condition 0)
read_more_input: Setting up buffer containing: g,
--accepting rule at line 49 ("g")
Reading a token: Next token is token STR_TERM ()
syntax errorError: popping token STR_TERM ()
Stack now 0 3
Error: popping nterm int_non_term ()
Stack now 0
Cleanup: discarding lookahead token STR_TERM ()
Stack now 0

莱克斯文件:

%{
#include <stdbool.h>
#include "yacc.h"
bool read_more_input(yyscan_t scanner);
%}

%option reentrant bison-bridge

%%

[0-9]+     { yylval->int_value = atoi(yytext); return INT_TERM; }
[a-zA-Z]+  { yylval->str_value = strdup(yytext); return STR_TERM; }
,          { return COMMA;    }
<<EOF>>    {
             if (!read_more_input(yyscanner)) {
                yyterminate();
             }
           }

Yacc 文件:

%{
// This appears to be a bug. This typedef breaks a dependency cycle between the headers.
// See https://stackoverflow.com/questions/44103798/cyclic-dependency-in-reentrant-flex-bison-headers-with-union-yystype
typedef void * yyscan_t;  

#include <stdbool.h>
#include "yacc.h"
#include "lex.h"
%}

%define api.pure full
%lex-param {yyscan_t scanner}
%parse-param {yyscan_t scanner}
%define api.push-pull push

%union {
  int int_value;
  char * str_value; 
}

%token <int_value> INT_TERM
%type  <int_value> int_non_term
%token <str_value> STR_TERM
%type  <str_value> str_non_term
%token COMMA

%%

complete : int_non_term str_non_term { printf(" === %d === %s === \n", $1, $2); }

int_non_term : INT_TERM COMMA { $$ = $1; }
str_non_term : STR_TERM COMMA { $$ = $1; }

%%

char * packets[]= {"10,", "asdf", "g,"};
int current_packet = 0;

bool read_more_input(yyscan_t scanner) {
  if (current_packet >= 3) {
    fprintf(stderr, "read_more_input: No more input\n");
    return false;
  }

  fprintf(stderr, "read_more_input: Setting up buffer containing: %s\n", packets[current_packet]);
  size_t buffer_size = strlen(packets[current_packet]) + 2;
  char * buffer = (char *) calloc(buffer_size, sizeof(char));
  memcpy(buffer, packets[current_packet], buffer_size - 2);

  yy_scan_buffer(buffer, buffer_size, scanner);
  current_packet++;
  return true; 
}

int main(int argc, char** argv) {

  yyscan_t scanner;
  yylex_init(&scanner) ;

  read_more_input(scanner);

  yyset_debug(1, scanner); 
  yydebug = 1;

  int status;
  yypstate *ps = yypstate_new ();

  YYSTYPE pushed_value;

  do {
    status = yypush_parse(ps, yylex(&pushed_value, scanner), &pushed_value, scanner);
  } while(status == YYPUSH_MORE);

  yypstate_delete (ps);
  yylex_destroy (scanner) ;
  return 0;
}

最佳答案

这不是多个缓冲区的预期用例。多个输入缓冲区通常用于处理诸如 #include 甚至宏扩展之类的事情，其中包含的文本绝对应该遵守标记边界。 (考虑一个包含未终止注释的#included 文件...)

如果您希望以允许 token 跨缓冲区边界流动的方式将来自不同来源的输入粘贴在一起，请重新定义 YY_INPUT 宏以满足您的需求。

YY_INPUT 是自定义输入的宏钩子(Hook)；它被赋予一个缓冲区和一个最大长度，它必须将指定数量的字节(或更少)复制到缓冲区中，并且还指示提供了多少字节(0 字节被视为输入结束，此时 yywrap 将被调用。)

YY_INPUT 在 yylex 中展开，因此它可以访问 yylex 参数，其中包括词法分析器状态。可重入词法分析器中的 yywrap 以扫描器状态作为参数调用。因此，如果需要，您可以同时使用这两种机制。

不幸的是，这不允许“零拷贝”缓冲区切换。但是 flex 通常没有针对内存输入缓冲区进行优化:您可以使用 yyscan_buffer 为 flex 提供缓冲区，但缓冲区必须以两个 NUL 字节终止，并且它将在扫描期间被修改，所以该功能很少有用。

这是一个简单的示例，它允许您使用一个以 NULL 结尾的类似 argv 的字符串数组来设置 yylex，然后将它们全部作为单个输入进行词法分析。 (如果您选择使用 argv+1 来初始化这个数组，您会注意到它从连续的参数中一起运行标记。)

%{
#include <string.h>
#include <parser.tab.h>
#define YY_EXTRA_TYPE char**
/* FIXME:
 * This assumes that none of the string segments are empty
 * strings (or for the feature-not-a-bug interpretation, 
 * it allows the list to be terminated by NULL or an empty string).
 */
#define YY_INPUT(buf,result,max_size) { \
  char* segment = *yyextra; \
  if (segment == NULL) result = 0; \
  else { \
    size_t avail = strnlen(segment, max_size); \
    memcpy(buf, segment, avail); \
    if (segment[avail]) *yyextra += avail; \
    else ++yyextra; \
    result = avail; \
  } \
}

%}

%option reentrant bison-bridge
%option noinput nounput nodefault noyywrap

%%

[[:space:]]+              ;
[0-9]+                    { yylval->number = strtol(yytext, 0, 10); return NUMBER; }
[[:alpha:]_][[:alnum:]_]* { yylval->string = strdup(yytext); return ID; }
.                         { return *yytext; }

%%

/* This function must be exported in some header */
void yylex_strings(char** argv, yyscan_t scanner) {
  yyset_extra(argv, scanner);
}

关于c - 在 Flex 中使用多个缓冲区时，如何避免标记在缓冲区之间拆分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44361723/

文章推荐： c - sizeof(void*) != sizeof(uintptr_t) 在实践中？

文章推荐： javascript - MongoDB 和 Node.js : saving int32 as double

文章推荐： python - 执行 Lambda python 函数时模块导入错误

javascript - 使用流异步读取文件时如何同步处理每一行/缓冲区
这个问题在这里已经有了答案: Possible to make an event handler wait until async / Promise-based code is done? (2
emacs - 夫妇一起在emacs中的Windows/缓冲区？
我经常有多个运行的进程(R，Python，eshell/shell)，对于每个进程，我经常都有一个相关的脚本，可以从中发送摘要。为此，我通常将每个框架垂直地分成两个窗口，以便脚本文件(例如.py)位于
关闭缓冲区后显示的 Emacs 缓冲区
如何修改 emacs 在关闭缓冲区后选择要显示的缓冲区的方式？当我有多个列显示相同的缓冲区，然后在其中一个缓冲区中打开另一个文件，然后关闭新打开的缓冲区时，它不会切换回前一个缓冲区，而是切换到另一个
vim 复制命令到剪贴板/缓冲区
如何将 ex 命令复制到剪贴板或粘贴到缓冲区？在 Windows 上使用 gvim。最佳答案 windows剪贴板可以通过the buffer + 访问.因此，可以使用 + 将剪贴板粘贴为前命令。
来自多个变量的 javascript 缓冲区
在 javascript 中如何以比以下更简单的方式获取 b 缓冲区？ var num=6553599 var a = new Buffer(4); a.writeInt32LE(num)
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
java - Java中的流、缓冲区
我有java考试，当我学习时，我看到了这个练习，我尝试解决它，但我发现一些困难，所以请帮助我考虑实用程序中方法的以下注释、 header 和部分代码名为 Atbash 的加密类。 /**
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
OpenGL 缓冲区 - 跨步与紧密封装
对于每个属性使用跨步顶点缓冲区与紧密打包缓冲区有何优缺点？我的意思是例如: 步幅:xyzrgb xyzrgb xyzrgb 紧:xyzxyzxyz rgbrgbrgb 乍一看，使用步幅时您似乎可以轻松
Java - 缓冲区 - 我的代码在读取时跳过文本文件的最后一行
我正在尝试将文本文件中每行的数字读取到 ArrayList 中。当我执行以下函数时，它总是跳过最后一个元素。有人可以帮我吗？因为我在这里没有遇到问题，因为它读取直到缓冲区为空，所以他应该在到达 Fil
将结构复制到 char 缓冲区
#include #include int main () { time_t time_raw_format; struct tm * ptr_time; char *buff
将结构复制到 char* 缓冲区
基本上我有一个包含不同类型数据的自定义结构。例如: typedef struct example_structure{ uint8_t* example_1[4]; int example_2[4];
Android ListView 缓冲区
我之前的列表实现是一个简单的 LinearLayout，位于一个装满我的项目的 ScrollView 中。我切换到 ListView 的 Android 实现以简单地使用 CursorAdapter
javascript - 响应式框架中的滑动窗口/缓冲区
我想创建一个可变长度的输入事件窗口/缓冲区，当它接收到额外的事件时会变长。这是为了实现“键入时搜索”功能。我想捕获点击，但为了不给服务器造成压力，我想明智地进行服务调用。我想到的逻辑是缓冲击键，从
复制 yuv420 缓冲区
我想将 yuv420P 像素写入缓冲区而不是二进制文件。假设我在指针中存储了 luma 、 Cb 和 Cr。 luma = output_pixel.luma; cb = output_pixel.c
具有并发读者的 Golang 缓冲区
我想在 Go 中构建一个支持多个并发读取器和一个写入器的缓冲区。所有写入缓冲区的内容都应由所有读者读取。允许新读者随时加入，这意味着已经写入的数据必须能够为迟到的读者回放。缓冲区应满足以下接口(in
没吃透Netty 缓冲区，还能算得上Java老司机？
本文转载自微信公众号「小明菜市场」，作者小明菜市场。转载本文请联系小明菜市场公众号。前言 Java NIO 需要理解的主要有缓冲区，通道，选择器，这三个主要的部分。基础
NIO 数据存储结构——缓冲区 Buffer
一点睛 NIO，可以称为 New IO 或 Non Blocking IO，是在 JDK 1.4 后提供的新 API。传统的I/O 是阻塞式的 I/O、面向流的操作；而 NIO 是非阻塞 I/O 、
vim - 如何切换到包含特定模式的 vim 缓冲区
我正在寻找一种切换到包含搜索文本的缓冲区的方法。例如。如果我打开了 100 个缓冲区，我想切换到一个包含 'fooBar = 1' 的缓冲区最佳答案我写了一个 Vim 插件来做到这一点:buff
video - 将帧插入 FFmpeg 缓冲区
我正在尝试将提取的视频帧(我使用 ffmpeg)推送到 FFMPEG 缓冲区中。我已经查看了 ffmpeg 的缓冲区源文件，例如 buffersrc.c 和 fifo.c，以确定我是否可以这样做，但我

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 在 Flex 中使用多个缓冲区时，如何避免标记在缓冲区之间拆分