c++ - 用boost spirit 完全解码http header value-6ren

c++ - 用boost spirit 完全解码http header value

转载作者：太空狗更新时间：2023-10-29 20:22:28

再一次，我发现自己想要振奋 spirit 。我再次发现自己被它打败了。

HTTP header 值采用一般形式:

text/html; q=1.0, text/*; q=0.8, image/gif; q=0.6, image/jpeg; q=0.6, image/*; q=0.5, */*; q=0.1

即value *OWS [; *OWS name *OWS [= *OWS possibly_quoted_value] *OWS [...]] *OWS [ , <another value> ...]

所以在我看来，这个 header 解码为:

value[0]: 
  text/html
  params:
    name : q
    value : 1.0
value[1]:
  text/*
  params:
    name : q
    value : 0.8
...

等等。

我敢肯定，对于任何知道如何做的人来说，boost::spirit::qi 语法都是微不足道的。

我谦虚地请求您的帮助。

例如，这里是解码 Content-Type 的代码概要 header ，仅限于 type/subtype 形式的一个值, 具有 <sp> ; <sp> token=token|quoted_string 形式的任意数量的参数

template<class Iter>
void parse(ContentType& ct, Iter first, Iter last)
{
    ct.mutable_type()->append(to_lower(consume_token(first, last)));
    consume_lit(first, last, '/');
    ct.mutable_subtype()->append(to_lower(consume_token(first, last)));
    while (first != last) {
        skipwhite(first, last);
        if (consume_char_if(first, last, ';'))
        {
            auto p = ct.add_parameters();
            skipwhite(first, last);
            p->set_name(to_lower(consume_token(first, last)));
            skipwhite(first, last);
            if (consume_char_if(first, last, '='))
            {
                skipwhite(first, last);
                p->set_value(consume_token_or_quoted(first, last));
            }
            else {
                // no value on this parameter
            }
        }
        else if (consume_char_if(first, last, ','))
        {
            // normally we should get the next value-token here but in the case of Content-Type
            // we must barf
            throw std::runtime_error("invalid use of ; in Content-Type");
        }
    }
}

ContentType& populate(ContentType& ct, const std::string& header_value)
{
    parse(ct, header_value.begin(), header_value.end());
    return ct;
}

最佳答案

好的，经过 24 小时的英勇奋斗(好吧，不是真的 - 更像是一遍又一遍地阅读手册......)，我找到了行之有效的方法。 p>

我绝对无法胜任 boost::spirit。如果有人可以改进这个答案，请张贴。

此 spirit 状态机采用 header 的值(带有一个可选参数化值)并将其转换为 content_type 结构。

我对 HTTP 标准的业余阅读表明某些 header 具有以下形式(此处的空格表示任意数量的空格，值可能被引用或不被引用:

Header-Name: tokena/tokenb [; param1 = "value" [; param2 = value]...]

而其他人有更一般的形式:

Header-Name: token [; param1 = "value"[; param2 = value]...] [ , token ...]

此代码涵盖第一种情况 - 即 HTTP Content-Type header 值。我需要扩展它以满足 Accept header (它可以用参数宣传多个值)——稍后会出现。

这是代码。请务必告诉我如何改进它!!

#define BOOST_SPIRIT_DEBUG
#include <gtest/gtest.h>
#include <boost/spirit/include/qi.hpp>
#include <boost/config/warning_disable.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/qi_char.hpp>
#include <boost/spirit/include/phoenix_core.hpp>
#include <boost/spirit/include/phoenix_operator.hpp>
#include <boost/spirit/include/phoenix_fusion.hpp>
#include <boost/spirit/include/phoenix_stl.hpp>
#include <boost/fusion/include/adapt_struct.hpp>
#include <boost/fusion/include/std_pair.hpp>
#include <utility>
#include <vector>
#include <string>
#include <boost/variant.hpp>

namespace qi = boost::spirit::qi;
namespace ascii = boost::spirit::ascii;

using unary_parameter = std::string;

struct binary_parameter
{
    std::string name;
    std::string value;
};
BOOST_FUSION_ADAPT_STRUCT(binary_parameter,
                          (std::string, name)
                          (std::string, value))

using parameter = boost::variant<unary_parameter, binary_parameter>;

struct type_subtype
{
    std::string type;
    std::string subtype;
};
BOOST_FUSION_ADAPT_STRUCT(type_subtype,
                          (std::string, type)
                          (std::string, subtype))

using content_type_pair = std::pair<std::string, std::string>;

struct content_type
{
    type_subtype type;
    std::vector<parameter> params;
};

BOOST_FUSION_ADAPT_STRUCT(content_type,
                          (type_subtype, type)
                          (std::vector<parameter>, params))

template<class Iterator>
struct token_grammar : qi::grammar<Iterator, content_type()>
{

    token_grammar() : token_grammar::base_type(content_type_rule)
    {
        using ascii::char_;
        using qi::omit;
        using qi::eoi;

        CR = char_('\r');
        LF = char_('\n');
        CRLF = CR >> LF;
        SP = char_(' ');
        HT = char_('\t');
        LWS = -CRLF >> +(SP | HT);

        UPALPHA = char_('A', 'Z');
        LOALPHA = char_('a', 'z');
        ALPHA = UPALPHA | LOALPHA;
        DIGIT = char_('0', '9');
        CTL = char_(0, 31) | char_(127);
        QUOT = char_('"');
        TEXT = (char_ - CTL) | HT;

        separator = char_('(') | ')' | '<' | '>' | '@'
        | ',' | ';' | ':' | '\\' | '"'
        | '/' | '[' | ']' | '?' | '='
        | '{' | '}' | SP | HT;

        end_sequence = separator | space;
        token = +(char_ - separator);

        qdtext = char_ - char_('"') - '\\';
        quoted_pair = omit[char_('\\')] >> char_;
        quoted_string = omit[char_('"')] >> *(qdtext | quoted_pair) >> omit[char_('"')];
        value = quoted_string | token ;

        type_subtype_rule = token >> '/' >> token;
        name_only = token;
        nvp = token >> omit[*SP] >> omit['='] >> omit[*SP] >> value;
        any_parameter = omit[*SP] >> omit[char_(';')] >> omit[*SP] >> (nvp | name_only);
        content_type_rule = type_subtype_rule >> *any_parameter;

        BOOST_SPIRIT_DEBUG_NODES((qdtext)(quoted_pair)(quoted_string)(value)(token)(separator));
    }

    qi::rule<Iterator, void()> CR, LF, CRLF, SP, HT, LWS, CTL, QUOT;
    qi::rule<Iterator, char()> UPALPHA, LOALPHA, ALPHA, DIGIT, TEXT, qdtext, quoted_pair;
    qi::rule<Iterator, void()> separator, space, end_sequence;
    qi::rule<Iterator, std::string()> quoted_string, token, value;
    qi::rule<Iterator, type_subtype()> type_subtype_rule;
    qi::rule<Iterator, unary_parameter()> name_only;
    qi::rule<Iterator, binary_parameter()> nvp;
    qi::rule<Iterator, parameter()> any_parameter;
    qi::rule<Iterator, content_type()> content_type_rule;

};

TEST(spirit_test, test1)
{
    token_grammar<std::string::const_iterator> grammar{};

    std::string test = R"__test(application/json )__test";
    content_type ct;
    bool r = qi::parse(test.cbegin(), test.cend(), grammar, ct);
    EXPECT_EQ("application", ct.type.type);
    EXPECT_EQ("json", ct.type.subtype);
    EXPECT_EQ(0, ct.params.size());

    ct = {};
    test = R"__test(text/html ; charset = "ISO-8859-5")__test";
    qi::parse(test.cbegin(), test.cend(), grammar, ct);
    EXPECT_EQ("text", ct.type.type);
    EXPECT_EQ("html", ct.type.subtype);
    ASSERT_EQ(1, ct.params.size());
    ASSERT_EQ(typeid(binary_parameter), ct.params[0].type());
    auto& x = boost::get<binary_parameter>(ct.params[0]);
    EXPECT_EQ("charset", x.name);
    EXPECT_EQ("ISO-8859-5", x.value);

}

关于c++ - 用boost spirit 完全解码http header value ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37840682/

文章推荐： c# - WPF 自定义控件 - 未应用 ItemsControl 模板

文章推荐： c# - 如何在 ASP.NET 中实现支付网关

文章推荐： python >=3.5 : Checking type annotation at runtime

Golang 中的 Json 解码/解码
我有以下 json: {"results": [{"columns":["room_id","player_name","player_ip"], "types":["integer","text
json - Golang 解码/解码 JSON 中的无效 unicode
我在 go 中获取格式不一致的 JSON 文件。例如，我可以有以下内容: {"email": "\"blah.blah@blah.com\""} {"email": "robert@gmail.com
javascript - JavaScript 中的 JSON 编码/解码 base64 编码/解码
JavaScript中有JSON编码/解码base64编码/解码函数吗？最佳答案是的，btoa() 和 atob() 在某些浏览器中可以工作: var enc = btoa("this is so
Encog之一 - 解码
我在其中一个项目中使用了 Encog，但在解码 One-Of Class 时卡住了。该字段的规范化操作之一是 NormalizationAction.OneOf，它具有三个输出。当我评估时，我想解码预
R:序列化不完全匹配的文本的base64编码/解码
在我的 previous question关于使用 serialize() 创建对象的 CSV 我从 jmoy 那里得到了一个很好的答案，他推荐了我的序列化文本的 base64 编码。这正是我要找的。
解码 JPEG 文件时跨浏览器不兼容？
有些事情让我感到困惑 - 为什么 this image在每个浏览器中显示不同？ IE9(和 Windows 照片查看器)中的图像: Firefox(和 Photoshop)中的图像: Chrome(和
java - JAXB 解码
是否可以在不知道它的类型( JAXBContext.newInstance(clazz) )的情况下解码一个类，或者什么是测试即将到来的正确方法？我确实收到了从纯文本中解码的消息 - 字符串传入的
OpenSSL Base64 解码
我正在尝试使用 openSSL 库进行 Base64 解码，然后使用 CMS 来验证签名。下面的代码总是将缓冲区打印为 NULL。 char signed_data[] = "MIIO"; int
iphone - 如何对选择器的引用进行编码/解码？
我有一个带有 SEL 类型实例变量的类，它是对选择器的引用。在encodeWithCoder/initWithCoder中，如何编码/解码这种类型的变量？最佳答案您可以使用 NSStringFro
javascript - 解码 ReadableByteStreams
var url = 'http://www.googleapis.com/customsearch/v1?q=foo&searchType=image'; window.fetch(url) .t
android - 在Android中支持对视频文件进行编码/解码
我想知道Android 2.2、2.3和3,4支持的音频/视频格式列表。我也想知道哪些Android版本支持视频编码和解码。我经历了this link，但是关于编码和解码我并不清楚。任何人的回答都是
Encog One Of - 解码
我在其中一个项目中使用 Encog，但在解码 One-Of 类时遇到了困难。该字段的规范化操作之一是 NormalizationAction.OneOf，它具有三个输出。当我评估时，我想解码预测值。如
java - 解码 XML
我正在尝试解码现有的 xml 文件，以便我可以正确处理数据，但 XML 结构看起来很奇怪。下面是 xml 示例以及我创建的对象。 11 266 AA1001 1
Unicode URL 解码
对 unicode 字符进行 URL 编码的常用方法是将其拆分为 2 %HH 代码。 (\u4161 => %41%61) 但是，unicode在解码时是如何区分的呢？您如何知道 %41%61 是 \
Java 解码 JSON
我正在尝试将 json 字符串解码为 Map。我知道有很多这样的问题，但我需要非常具体的格式。例如，我有 json 字符串: { "map": { "a": "b",
SQL 解码 - 选择和位置
我有一个查询，我认为需要像这样(解码会更大) SELECT firstName, lastName, decode(mathMrk, 80, 'A', mathMrk) as decodeMat
PHP 仅对数字和字符进行字符串编码/解码
我知道PHP函数encode()和decode()，它们对我来说工作得很好，但我想在url中传递编码字符串，但encode确实返回特殊字符，如“=”、“”' “等等...... 这显然会破坏我的脚本，
Java - Base64 解码
我必须解码 Basic bW9uTG9naW46bW9uTW90RGVQYXNz 形式的 http 请求的授权 header 当我解码它时online ，我得到了正确的结果 monLogin:monM
java - 哪个Java库提供base64编码/解码？
这个问题已经有答案了: Decode Base64 data in Java (21 个回答) 已关闭 8 年前。我想知道使用哪个库进行 Base64 编码/解码？我需要此功能足够稳定以供生产使用。
java - 解码 [] 字节我只得到字符��
我正在尝试从 Arduino BT 解码 []byte，我的连接完美，问题是当我尝试解码数组时。我得到的只是这个字符�(发送的字节数相同)我认为问题出在解码上。我尝试使用 ASCII 字符集，但仍然存

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 用boost spirit 完全解码http header value