parsing - 我可以从我的船长解析器收集属性吗？-6ren

parsing - 我可以从我的船长解析器收集属性吗？

转载作者：行者123 更新时间：2023-12-04 07:40:02

24

4

我有一个数据文件格式，其中包括

/* 评论 */

/* 嵌套的/* 注释 */也是 */和

//c++ 风格的单行注释..

像往常一样，这些注释可以出现在输入文件中允许正常空白的任何地方。
因此，我没有通过普遍的注释处理来污染语法，而是制作了一个处理空白和各种注释的skipper解析器。
到目前为止一切顺利，我能够解析我所有的测试用例。
但是，在我的用例中，如果存在一个或多个注释，则任何已解析的值( double 、字符串、变量、列表...)都必须将其前面的注释作为属性携带。也就是说，我的 double AST 节点应该是

struct Double {
   double value;
   std::string comment;
};

对于我在语法中的所有值，依此类推。
因此，我想知道是否有可能以某种方式将收集到的评论“存储”在船长解析器中，然后让它们可用于以正常语法构建 AST 节点？
处理评论的船长:

template<typename Iterator>
struct SkipperRules : qi::grammar<Iterator> {
    SkipperRules() : SkipperRules::base_type(skipper) {
        single_line_comment = lit("//") >> *(char_ - eol) >> (eol | eoi);
        block_comment = ((string("/*") >> *(block_comment | char_ - "*/")) >> string("*/"));
        skipper = space | single_line_comment | block_comment;
    }
    qi::rule<Iterator> skipper;
    qi::rule<Iterator, std::string()> block_comment;
    qi::rule<Iterator, std::string()> single_line_comment;
};

我可以在船长规则中使用全局变量和语义操作来存储注释，但这似乎是错误的，并且通常在解析器回溯中可能不会很好地发挥作用。什么是存储评论的好方法，以便以后可以在主语法中检索它们？

最佳答案

I can store the commments using a global variable and semantic actions in the skipper rule, but that seems wrong and probably won't play well in general with parser backtracking.

好想法。见 Boost Spirit: "Semantic actions are evil"? .此外，在您的情况下，它会使源位置与评论的相关性变得不必要地复杂化。

can I collect attributes from my skipper parser?

你不能。船长隐含 qi::omit[] (顺便说一下，就像 Kleene-% 列表中的分隔符)。

In my use case, however, any of the parsed values (double, string,variable, list, ...) must carry the comments preceding it as anattribute, if one or more comments are present. That is, my AST nodefor double should be
struct Double {
   double value;
   std::string comment;
};

你有它: 您的评论不是评论 .您在 AST 中需要它们，因此在语法中也需要它们。
想法
我在这里有几个想法。

您不能简单地使用船长来增加评论，就像您提到的那样，这在语法上会很麻烦/嘈杂。

你可以暂时将船长改写为 qi::space在需要评论的地方。就像是

value_ = qi::skip(qi::space) [ comment_ >> (string_|qi::double_|qi::int_)  ];

或者给定您的 AST，可能会更冗长一些

value_ = qi::skip(qi::space) [ comment_ >> (string_|double_|int_) ];
string_ = comment_ >> lexeme['"' >> *('\\' >> qi::char_ | ~qi::char_('"')) >> '"'];
double_ = comment_ >> qi::real_parser<double, qi::strict_real_policies<double> >{};
int_    = comment_ >> qi::int_;

笔记:

在这种情况下，请确保 double_ , string_和 int_用 qi::space_type 声明作为船长(见 Boost spirit skipper issues )

comment_假定规则公开 std::string()属性。如果在船长上下文中使用也可以，因为实际属性将绑定(bind)到 qi::unused_type它编译为属性传播的无操作。

作为一个微妙的旁注，我确保在第二个片段中使用严格的真实策略，以便双分支也不会吃整数。

一个花式解决方案可能是将增强的注释存储到“解析器状态”(例如成员变量)中，然后使用 on_success处理程序以根据需要将该值传输到规则属性中(并且可以选择在某些规则完成时刷新注释)。

I have some examples of what can be achieved using on_success for inspiration: https://stackoverflow.com/search?q=user%3A85371+on_success+qi. (Specifically look at the way position information is being added to AST nodes. There's a subtle play with fusion-adapted struct vs. members that are being set outside the control of autmatic attribute propagation. A particularly nice method is to use a base-class that can be generically "detected" so AST nodes deriving from that base magically get the contextual comments added without code duplication)

实际上，这是一种混合:是的，您使用语义操作来“旁路”评论值。但是，它不那么笨拙了，因为现在您可以确定性地“收获”成功处理程序中的这些值。如果您不过早地重置评论，它甚至应该在回溯下正常工作。
对此的提示是，推理“魔术评论”的机制会稍微不那么透明。但是，它确实坐得很好，原因有两个:

- "magic comments" are a semantic hack whichever way you look at it, so it matches the grammar semantics in the code
- it does succeed at removing comment noise from productions, which is effectively what the comments were from in the first place: they were embellishing the semantics without complicating the language grammar.

我认为选项 2. 是您可能没有意识到的“直截了当”的方法。选项 3. 是一种奇特的方法，以防您想享受更大的通用性/灵 active 。例如。你会做什么

  /*obsolete*/ /*deprecated*/ 5.12e7

或者，怎么样

  bla = /*this is*/ 42 /*also relevant*/;

在“花哨”的情况下，这些将更容易正确处理。
所以，如果你想避免复杂性，我建议选择 2。如果你需要灵 active ，我建议选择 3。

关于parsing - 我可以从我的船长解析器收集属性吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67531913/

24

4

0

文章推荐： visual-studio - 快速删除安装项目中的文件

文章推荐： amazon-web-services - 防止直接从亚马逊 s3 下载音频文件

文章推荐： javascript - 根据另一个类的属性创建一个带有 getter 的类

js正则表达式验证大全(收集)
引用网址 http://hi.baidu.com/quiteuniverse/blog/item/9f3f043d46ad1e07bba16716.html 以下函数调用方式：&nbs
php - 收集 cookies
我什至不确定如何描述我正在尝试做的事情，因为我对 cookie 了解不多，但就这样吧。是否可以使用PHP从浏览器缓存中收集一个cookie(或cookie文件)，将其保存到数据库中，然后清除缓存并重
android - 使用协程流时房间卡住->收集
我正在使用 Room(v. 2.2.1)和协程支持(v. 1.3.2)并进行以下设置 @Entity(tableName = "simple_table") data class SimpleEnti
java - 基于时间运算符的累加/收集
我正在尝试编写一个基于时间运算符收集/累积值的规则。 rule "Zone6 Overlap" when $i1 : Instance ($e1 : event == " Vel : 20.9
收集 BST 的所有叶子并列出它们
我有一个简单的 BST，定义了节点结构: struct node { int key_value; struct node *left; struct node *right; }; ty
Java8 收集 map
我有这个对象: public class MenuPriceByDay implements Serializable { private BigDecimal avgPrice; p
android - 收集、存储和检索传感器数据
我正在开发一个应用程序，需要访问给定传感器的“最后 5 秒有值(value)的数据”。我的计划是以某种方式存储这些数据，然后当我请求数据时，它将返回最近 5 秒内获得的所有数据。鉴于以下情况，我不确定
C# 数组映射/收集
在 Ruby 中，您可以对数组使用 map/collect 方法来修改它: a = [ "a", "b", "c", "d" ] a.collect! {|x| x + "!" } a
java - 收集、存储和检索大量数字数据
我即将开始实时收集大量数字数据(对于那些感兴趣的人，各种股票和 future 的出价/要价/最后或“磁带”)。稍后将检索数据以进行分析和模拟。这一点都不难，但我想高效地做到这一点，这会带来很多问题。我
database - 收集、维护和确保庞大数据集准确性的最佳实践是什么？
我提出这个问题是为了寻求有关如何设计系统的实用建议。像 amazon.com 和 pandora 这样的网站拥有并维护着庞大的数据集来运行他们的核心业务。例如，亚马逊(以及所有其他主要电子商务网站)
通过已知索引、收集、分散重新调整的数组缓存友好复制
假设我们有一个数据数组和另一个带索引的数组。 data = [1, 2, 3, 4, 5, 7] index = [5, 1, 4, 0, 2, 3] 我们想从 index 的 data 元素创建一个
c# - GC.收集()
好的，我已经阅读了几个关于它的主题，但现在就开始吧。假设我有一个应用程序，基本上我会时不时地点击一个按钮，几分钟内会发生很多事情，然后它可能会再闲置一个小时，或者可能只是 1 分钟。难道不是在整个结束
r - 收集 R 中相同组内的重叠坐标列
我有一个数据框，例如 Seq Chrm start end length score 0 A C1 1 50 49 12 1 B
java - 收集 Object[] 数组中的所有方法参数
我正在考虑在 Object[] 数组中收集泛型方法的所有方法参数以进行记录。我知道使用方面可以更好地实现这一点，但是我不允许使用它，并且如果可能的话我正在寻找一种基于纯反射的方法为了澄清，假设一个
收集 Java 6 套接字垃圾
快速提问: 如果 Socket 对象(及其本地缓存的 InputStream 和 OutputStream 对象)超出范围并被垃圾收集，连接是否在 JVM 中保持打开状态？ (即，不会在监听服务器上抛
facebook - 收集 Facebook 直播公开数据
是否有用于收集 facebook 公共(public)数据作为实时提要的 API。我阅读了关于用于收集数据的公共(public)提要 API，但我现在不能申请，而且它不是免费的，还有 Open str
optimization - 收集 Lucene/优化中搜索的所有命中
摘要 :我使用自定义收集器收集给定搜索的所有命中的文档 ID(它使用 ID 填充 BitSet)。根据我的需要，搜索和获取文档 ID 的速度非常快，但是当涉及到从磁盘实际获取文档时，事情变得非常缓慢。
gradle - 收集 Gradle 项目的依赖约束
我正在寻找一种方法来从自定义 Gradle 插件收集给定项目的所有依赖约束(通过常规 platform 和/或 enforcedPlatform 和/或“手动”强制执行)。在 Maven 世界中，您
powershell - 收集 samaccount powershell
我有一个 CSV 格式的用户列表，但我需要按广告中的名称从每个用户收集 SamAccount 属性。 CSV 模型脚本 Get-ADObject -Filter 'ObjectClass -eq "
angularjs - ionic 收集 - 带日期分隔符的重复
我得到了一个非常大的列表，其中包含大约 200 个带有文本和图像的项目。 ng-repeat 是一种缓慢渲染的方式。它尝试过这个 solution 。效果很好。但不适合重复收集。我的网络服务返回此:

首页

博学

6Ren·AI

商城

parsing - 我可以从我的船长解析器收集属性吗？