c++ - 如何在 Boost::Spirit::Lex 中使用指针作为标记属性？-6ren

c++ - 如何在 Boost::Spirit::Lex 中使用指针作为标记属性？

转载作者：行者123 更新时间：2023-12-05 04:28:51

我写了一个最简单的例子来演示这个问题。它解析嵌套的数字列表，如 (1 2 3 (4 5) (6 (7 (8))))。我使用 spirit::lex 来解析数字和 spirit::qi 来解析列表，所以我的代码是这样的:

using TokenTypes = boost::mpl::vector<Object*>;
using Iterator = std::string::iterator;

class Lexer : public lex::lexer<actor_lexer<token<Iterator, TokenTypes>>>
{
public:
  lex::token_def<> spaces;        // used to skip spaces
  lex::token_def<Object*> number; // create Number Object on heap and use the pointer as attribute

public:
  Lexer();
};

template<typename... Ts>
using Rule = qi::rule<Lexer::iterator_type, Ts...>;

class Parser : public qi::grammar<Lexer::iterator_type, Object*>
{
public:
  Lexer lexer;

  Rule<Object*> list;
  Rule<Object*> elem;

public:
  Parser();
};

但是在 Parser::Parser() 中，我不能在语法表达式中使用 Lexer::number:

Parser::Parser()
  : base_type(elem)
{
  // list = ...

  elem %= list | lexer.number; // fail to compile!
}

Clang 错误信息(简短):

/usr/include/boost/spirit/home/qi/detail/assign_to.hpp:42:36: error: type 'Object *' cannot be used prior to '::' because it has no members
          : is_iter_range<typename C::value_type> {};
                                   ^
...
...
...

我不明白为什么这是错误的，因为当我使用其他标量类型(如 int 和 double 作为标记属性时它曾经工作正常。

那么，如何使用指针类型作为token属性呢？

完整示例

#include <boost/spirit/include/lex_lexertl.hpp>
#include <boost/spirit/include/qi.hpp>
#include <iostream>
#include <string>
#include <vector>

class Object
{
public:
  virtual ~Object() = default;

public:
  virtual void print(std::ostream& out) = 0;
};

class Number : public Object
{
public:
  int64_t _val;

public:
  virtual void print(std::ostream& out) override { out << _val; }
};

class List : public Object
{
public:
  std::vector<Object*> _objs;

public:
  virtual void print(std::ostream& out) override
  {
    out << '(';
    for (auto&& i : _objs) {
      i->print(out);
      out << ' ';
    }
    out << ')';
  }
};

namespace qi = boost::spirit::qi;
namespace fu = boost::fusion;
namespace lex = boost::spirit::lex;

using lex::lexertl::actor_lexer;
using lex::lexertl::token;

using TokenTypes = boost::mpl::vector<Object*>;
using Iterator = std::string::iterator;

class Lexer : public lex::lexer<actor_lexer<token<Iterator, TokenTypes>>>
{
public:
  lex::token_def<> spaces;
  lex::token_def<Object*> number;

public:
  Lexer();
};

template<typename... Ts>
using Rule = qi::rule<Lexer::iterator_type, Ts...>;

class Parser : public qi::grammar<Lexer::iterator_type, Object*>
{
public:
  Lexer lexer;

  Rule<Object*, qi::locals<List*>> list;
  Rule<Object*> elem;

public:
  Parser();
};

Lexer::Lexer()
{
  self += '(';
  self += ')';

  spaces = R"(\s+)";
  self +=
    spaces[([](auto& start, auto& end, auto& matched, auto& id, auto& ctx) {
      matched = lex::pass_flags::pass_ignore;
    })];

  number = R"(\d+)";
  self +=
    number[([](auto& start, auto& end, auto& matched, auto& id, auto& ctx) {
      auto val = new Number();
      auto iter = start;
      qi::parse(iter, end, qi::long_long, val->_val);
      ctx.set_value(val);
    })];
}

Parser::Parser()
  : base_type(elem)
{
  list = (         //
    qi::lit('(')[( //
      [](auto& attr, auto& ctx, bool& pass) {
        fu::at_c<0>(ctx.locals) = new List();
      })]       //
    >> *(elem[( //
         [](auto& attr, auto& ctx, bool& pass) {
           List* list = fu::at_c<0>(ctx.locals);
           list->_objs.push_back(attr);
         })]) //
    >> ')'    //
    )[(       //
    [](auto& attr, auto& ctx, bool& pass) {
      List* list = fu::at_c<0>(ctx.locals);
      fu::at_c<0>(ctx.attributes) = list;
    })];

  elem %= list | lexer.number;
}

int
main(int argc, char* argv[])
{
  Parser parser;

  std::string line;
  while (std::getline(std::cin, line)) {
    auto begin = line.begin();
    Object* obj;
    lex::tokenize_and_parse(begin, line.end(), parser.lexer, parser, obj);
    obj->print(std::cout);
    std::cout << std::endl;
  }
}

最佳答案

好的。别小看这个。阅读您的示例(包括一个独立示例的荣誉!这节省了大量时间)我不禁觉得您不知何故偶然发现了 Spirit Qi 中反模式的最糟糕的横截面。

您正在使用多态 AST:
您正在使用语义操作。通常这已经错过了嵌入式语法的最佳位置，这就是我链接 126 answers 的原因。至 Boost Spirit: "Semantic actions are evil"? .
然而，这甚至只是在谈论 Qi 的语义 Action 。您还将它们用于 Lex:
```
self +=
    spaces[([](auto& start, auto& end, auto& matched, auto& id,
               auto& ctx) { matched = lex::pass_flags::pass_ignore; })];
```
不使用 Phoenix 会进一步复杂化，例如:
```
self += spaces[lex::_pass = lex::pass_flags::pass_ignore];
```
它的作用完全相同，但噪音减少了大约 870%，而邪恶魔法的数量相同。

另一个语义 Action 最重要:

self += number[(
    [](auto& start, auto& end, auto& matched, auto& id, auto& ctx) {
        auto val = new Number();
        auto iter = start;
        qi::parse(iter, end, qi::long_long, val->_val);
        ctx.set_value(val);
    })];

除了已经列出的所有问题之外，它还通过从 Lex 语义操作中调用 Qi 从字面上制造了一个分形。当然，这希望是:

self += number[lex::_val = phx::new_<Number>(/*magic*/)];

但这种魔法并不存在。我的直觉是，您的问题是 Lexer 根本不应该关注 AST 类型。在这一点上，我觉得词法分析器可以/应该是这样的

using TokenTypes = boost::mpl::vector<uint64_t>;
using Iterator = std::string::const_iterator; // NOTE const_

struct Lexer : lex::lexer<actor_lexer<token<Iterator, TokenTypes>>> {
    lex::token_def<>         spaces;
    lex::token_def<uint64_t> number;

    Lexer() : spaces{R"(\s+)"}, number{R"(\d+)"} {
        self += '(';
        self += ')';
        self += spaces[lex::_pass = lex::pass_flags::pass_ignore];
        self += number;
    }
};

也就是说，它是否应该存在。

这就是结构评估。让我按照相同的思路对 Qi 语法进行简化，这样我们就可以对代码进行推理:

struct Parser : qi::grammar<Lexer::iterator_type, Object*()> {
    Parser() : base_type(elem) {
        using namespace qi::labels;

        static constexpr qi::_a_type _list{};
        const auto _objs = phx::bind(&List::_objs, _list);

        list = (                               //
            '(' >>                             //
            *(elem[phx::push_back(_objs, _1)]) //
            >> ')'                             //
            )[_val = phx::new_<List>(_list)];

        elem                  //
            = list[_val = _1] //
            | lexer.number[_val = phx::new_<Number>(_1)];
    }

    Lexer lexer; // TODO FIXME excess scope

  private:
    using It = Lexer::iterator_type;
    qi::rule<It, Object*(), qi::locals<List>> list;
    qi::rule<It, Object*()>                    elem;
};

请注意我是如何制作本地 List 的而不是 List* , 只是稍微减少内存泄漏的机会。我想为了 boost 效率，您可以尝试让 Phoenix 为您执行移动语义:

 [_val = phx::new_<List>(phx::static_cast_<List&&>(_list))];

但那时我不相信所有的表达式模板都可以做你想做的事情并去更详细的(即使假设 c++17):

phx::function move_new = [](List& l) { return new List(std::move(l)); };

list = (                               //
    '(' >>                             //
    *(elem[phx::push_back(_objs, _1)]) //
    >> ')'                             //
    )[_val = move_new(_list)];

现在我们得到了一个可行的演示:

Live On Coliru

int main() {
    Parser parser;

    for (std::string const line : {
             "",
             "42",
             "()",
             "(1 2 3)",
             "(1 (44 55 () 66) 3)",
         }) {
        auto    begin = line.begin();
        Object* obj = nullptr;
        if (lex::tokenize_and_parse(begin, line.end(), parser.lexer, parser,
                                    obj)) {
            obj->print(std::cout << std::quoted(line) << " -> ");
            delete obj;
        } else {
            std::cout << std::quoted(line) << " -> FAILED";
        }
        std::cout << std::endl;
    }
}

打印

"" -> FAILED
"42" -> 42
"()" -> ()
"(1 2 3)" -> (1 2 3 )
"(1 (44 55 () 66) 3)" -> (1 (44 55 () 66 ) 3 )

请注意，这个简单的测试程序已经泄漏了 11 个对象，总共 224 个字节。这甚至不会使错误处理或回溯规则复杂化。

那是疯狂。您当然可以使用智能指针修复它，但这只会让一切变得更加复杂，同时确保性能会非常差。

进一步简化

我会停止使用 Lex 和动态多态性:

不再有莱克斯:

Lex 在这里添加的唯一“值(value)”是跳过空格。 Qi 非常有能力(参见例如 Boost spirit skipper issues 了解该主题的变体)，所以我们将使用 skip(space)[]相反:

Live On Coliru

#include <boost/phoenix.hpp>
#include <boost/spirit/include/qi.hpp>
#include <iomanip>
#include <iostream>
#include <string>
#include <vector>

struct Object {
    virtual ~Object() = default;
    virtual void print(std::ostream& out) const = 0;

    friend std::ostream& operator<<(std::ostream& os, Object const& o) { return o.print(os), os; }
};

struct Number : Object {
    Number(uint64_t v = 0) : _val(v) {}
    int64_t      _val;
    virtual void print(std::ostream& out) const override { out << _val; }
};

struct List : Object {
    std::vector<Object*> _objs;

    virtual void print(std::ostream& out) const override {
        out << '(';
        for (auto&& el : _objs)
            out << ' ' << *el;
        out << ')';
    }
};

namespace qi  = boost::spirit::qi;
namespace phx = boost::phoenix;

template <typename It>
struct Parser : qi::grammar<It, Object*()> {
    Parser() : Parser::base_type(start) {
        using namespace qi::labels;

        static constexpr qi::_a_type _list{};
        const auto _objs = phx::bind(&List::_objs, _list);

        phx::function move_new = [](List& l) { return new List(std::move(l)); };

        list = (                               //
            '(' >>                             //
            *(elem[phx::push_back(_objs, _1)]) //
            >> ')'                             //
            )[_val = move_new(_list)];

        elem                                          //
            = list[_val = _1]                         //
            | qi::uint_[_val = phx::new_<Number>(_1)] //
            ;

        start = qi::skip(qi::space)[elem];
    }

  private:
    qi::rule<It, Object*(), qi::space_type, qi::locals<List>> list;
    qi::rule<It, Object*(), qi::space_type> elem;

    // lexemes
    qi::rule<It, Object*()> start;
};

int main() {
    Parser<std::string::const_iterator> const parser;

    for (std::string const line : {
             "",
             "42",
             "()",
             "(1 2 3)",
             "(1 (44 55 () 66) 3)",
         }) {
        Object* obj = nullptr;
        if (parse(line.begin(), line.end(), parser >> qi::eoi, obj)) {
            std::cout << std::quoted(line) << " -> " << *obj;
        } else {
            std::cout << std::quoted(line) << " -> FAILED";
        }
        delete obj;
        std::cout << std::endl;
    }
}

仍然像 C++ 过时一样泄漏，但至少在减少 20 个 LoC 和一半编译时间的情况下这样做。

静态多态

隐藏所有原始指针内容(或完全避免它，具体取决于确切的 AST 要求):

using Number = uint64_t;
using Object = boost::make_recursive_variant< //
    Number,                                   //
    std::vector<boost::recursive_variant_>>::type;

using List   = std::vector<Object>;

For ease of supplying operator<< I moved them into an AST namespace below.

解析器会去到:

template <typename It> struct Parser : qi::grammar<It, AST::Object()> {
    Parser() : Parser::base_type(start) {
        list = '(' >> *elem >> ')';
        elem = list | qi::uint_;

        start = qi::skip(qi::space)[elem];
    }
  private:
    qi::rule<It, AST::List(), qi::space_type> list;
    qi::rule<It, AST::Object(), qi::space_type> elem;
    qi::rule<It, AST::Object()> start;
};

不再有 lex，不再有 phoenix，不再有泄漏，不再有手动语义操作。只是富有表现力的代码。

现场演示

Live On Coliru

#include <boost/spirit/include/qi.hpp>
#include <iomanip>
#include <iostream>

namespace AST {
    struct Number {
        uint64_t v;
        Number(uint64_t v = 0) : v(v){};
    };

    using Object = boost::make_recursive_variant< //
        Number,                                   //
        std::vector<boost::recursive_variant_>>::type;

    using List = std::vector<Object>;

    std::ostream& operator<<(std::ostream& os, Number const& n) {
        return os << n.v;
    }
    std::ostream& operator<<(std::ostream& os, List const& l) {
        os << '(';
        for (auto& el : l)
            os << ' ' << el;
        return os << ')';
    }
} // namespace AST

namespace qi = boost::spirit::qi;

template <typename It> struct Parser : qi::grammar<It, AST::Object()> {
    Parser() : Parser::base_type(start) {
        list = '(' >> *elem >> ')';
        elem = list | qi::uint_;

        start = qi::skip(qi::space)[elem];
    }
  private:
    qi::rule<It, AST::List(), qi::space_type> list;
    qi::rule<It, AST::Object(), qi::space_type> elem;
    qi::rule<It, AST::Object()> start;
};

int main() {
    Parser<std::string::const_iterator> const parser;

    for (std::string const line : {
             "",
             "42",
             "()",
             "(1 2 3)",
             "(1 (44 55 () 66) 3)",
         }) {
        AST::Object obj;
        if (parse(line.begin(), line.end(), parser >> qi::eoi, obj))
            std::cout << std::quoted(line) << " -> " << obj << "\n";
        else
            std::cout << std::quoted(line) << " -> FAILED\n";
    }
}

打印

"" -> FAILED
"42" -> 42
"()" -> ()
"(1 2 3)" -> ( 1 2 3)
"(1 (44 55 () 66) 3)" -> ( 1 ( 44 55 () 66) 3)

但这一次，没有泄漏内存。而且，它现在编译速度足够快 Compiler Explorer can also handle it .

关于c++ - 如何在 Boost::Spirit::Lex 中使用指针作为标记属性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72499044/

文章推荐： ansible - 列表的 dict 对象的元素顺序

文章推荐： css - 应用粘性位置

boost-spirit - Boost Spirit X3 量产准备好了吗？
我正在将一个手写解析器迁移到 Boost.Spirit (2.5.4)。第一印象是积极的，但由于我使用的是 C++17，X3 似乎是一个非常有吸引力的选择。幸运的是，有很多关于 X3 的可用资源:
boost-spirit - boost::spirit::qi 前瞻以匹配字符串中的最后一次出现
是否可以使用 boost::spirit::qi 来解析以下内容？ A_B --> (A, B) A_B_C --> (A_B, C) A_B_C_D --> (A_B_
boost-spirit - 使用 Spirit.Qi 消除语法糖
我正在尝试解析一种类似 lisp 的语言，它具有一些通用功能的语法糖。例如，plus 函数可以写成 (+ 1 2) 或 1 + 2。我认为在尝试解释语言之前消除句法糖会显着促进解释过程，因为那样的话，
boost-spirit - 使用 Spirit.Qi 消除语法糖
我正在尝试解析一种类似 lisp 的语言，它具有一些通用功能的语法糖。例如，plus 函数可以写成 (+ 1 2) 或 1 + 2。我认为在尝试解释语言之前消除句法糖会显着促进解释过程，因为那样的话，
c++ - 如何使用存储在 boost spirit 闭包中的变量作为 boost spirit 循环解析器的输入？
我想使用解析后的值作为循环解析器的输入。语法定义了一个 header ，它指定了以下字符串的(可变)大小。例如，假设以下字符串是某个解析器的输入。 12\r\nTest Payload 解析器应提取
c++ - 有没有办法将 spirit::lex 字符串标记的内容匹配为 spirit::qi 语法中的文字
我正在编写 DSL 并使用 Boost Spirit 词法分析器来标记我的输入。在我的语法中，我想要一个类似于此的规则(其中 tok 是词法分析器): header_block = tok.n
boost-spirit - 从 boost Spirit 语法中获取结果(phoenix push_back 导致编译错误)
我有以下精神语法。我正在尝试在 struct myresult 中创建 AST 节点的向量使用标准 push_back(at_c(qi::_val), qi::_1)但出现编译错误(见下文)。 typ
c++ - boost::spirit 绑定(bind)函数提供参数作为 spirit:qi::_val
需要为 std::pair 对象提供类型为 boost::variant 的对象的值。您将如何使用其他资源来实现这个想法？下面还有其他方法吗？ struct aggr_pair_visitor
c++ - 如何结合 boost::spirit::lex 和 boost::spirit::qi？
我有一个词法分析器，基于该词法分析器，我现在想创建一个使用该词法分析器生成的标记的语法。我尝试改编我发现的一些示例，现在我有一些可以编译和工作的东西至少有一点，但我的一个应该失败的测试却没有。现在我想
c++ - 使用 spirit::qi 时如何忽略 spirit::Lex 的 token 属性？
当我使用此 qi 语法从 Lex 接受标记时: pair %= token(ID_MARKER) >> ':' >> atom >> ',' >> atom
c++ - boost::spirit::qi::double_ 和 boost::spirit::qi::int_
如何解析可能包含 double 或 int 的字符串，具体取决于是否设置了点。例如。 6.0是double类型，6是int类型。规则是 rule,skipper> r = qi::double_|qi
c++ - boost spirit 语法错误 - "no type named ‘size’ 中的 ‘struct boost::spirit::unused_type’“
请帮助我诊断以下错误。我有一个简单的语法: struct json_start_elem_grammar_object : qi::grammar { json_start_elem_gramma
c++ - 使用 Boost.Spirit.Lex 和 Boost.Spirit.Qi 解析 "true"和 "false"
作为使用 Boost.Spirit 的更大语法的第一阶段，我尝试解析“true”和“false”以生成相应的 bool 值，true 和 false. 我正在使用 Spirit.Lex 对输入进行标记
Boost Spirit 将表达式标记化为向量
我正在尝试解析一个也可以包含标识符的表达式并将每个元素推送到 std::vector 中，我想出了以下语法: #include #include #include #include name
boost-spirit - 如果使用惰性求值实现三元类型
我正在为 if 函数实现生产规则: qi::rule f_if; f_if = qi::ascii::string("if") >> qi::char_('(')
Boost::spirit 序列没有被解析
我编写了这段代码示例并期望它打印OPERATION( OPERATOR(aaa) ID(bbb) ) 但我只得到OPERATION ( OPERATOR(aaa) )反而。 result2 和 it1
c++ - Spirit QI解析器结束EOM
我的数据定义为: std::string data("START34*23*43**"); 我的语法: "START" >> boost::spirit::hex % '*' 题: 如何解析有两颗星的
Boost::spirit 序列没有被解析
我编写了这段代码示例并期望它打印OPERATION( OPERATOR(aaa) ID(bbb) ) 但我只得到OPERATION ( OPERATOR(aaa) )反而。 result2 和 it1
c++ - spirit 上如何解析字符串并将其用作返回值
我需要解析一个键值对，其中键本身是示例中的固定字符串lke'cmd'。不幸的是qi::lit没有综合属性，并且qi::char_没有解析固定的字符串。以下代码无法编译。执行后，我需要那个result
c++ - Spirit X3组合属性
我正在尝试编写精神规则，但我无法弄清楚这个新规则的属性是什么。以下代码按我预期的方式工作。 #include #include #include #include #include nam

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城