gpt4 book ai didi

c++ - Protocol Buffer ParseFromString 不检查消息结尾

转载 作者:行者123 更新时间:2023-11-28 04:35:36 48 4
gpt4 key购买 nike

我发现了一个关于 Protocol Buffer 的有趣问题。如果您有两条相似的消息,则可以使用 C++ API 或命令行像解析另一条消息一样解析一条消息。

limited documentation for ParseFromString没有提到它不需要消耗所有的字符串,如果不消耗也不会失败。

我原以为 ParseFromString 无法解析类型 A 的消息,如果它与类型 B 的消息一起显示的话。毕竟消息包含额外的数据。然而,这种情况并非如此。一个示例脚本演示了这个问题:

#!/bin/sh

cat - >./foobar.proto <<EOF
syntax = "proto3";
package demo;
message A
{
uint64 foo = 1;
};

enum flagx {
y = 0;
z = 1;
}

message B {
uint64 foolish = 1;
flagx bar = 2;
};

EOF

cat - >./mess.B.in.txtfmt <<EOF
foolish: 10
bar: y
EOF

cat - >./mess.in.txtfmt <<EOF
foo: 10
EOF

protoc --encode=demo.A foobar.proto <./mess.A.in.txtfmt >./mess.A.proto
protoc --encode=demo.B foobar.proto <./mess.B.in.txtfmt >./mess.B.proto
protoc --decode=demo.A foobar.proto >./mess.out.txtfmt <./mess.B.proto

echo "in: "
cat mess.B.in.txtfmt
echo "out: "
cat mess.out.txtfmt

echo "xxd mess.A.proto:"
xxd mess.A.proto

echo "xxd mess.B.proto:"
xxd mess.B.proto

输出是:

in: 
foolish: 10
bar: 20
out:
foo: 10
xxd mess.A.proto:
00000000: 080a
xxd mess.B.proto:
00000000: 080a

因此消息 A 和 B 的二进制消息是相同的。

如果你改变协议(protocol),而不是枚举,你有另一个 varint (uint64),你会得到不同的二进制消息,但是ParseFromString 仍会成功地将较长的消息解析为较短的消息。

真正令人困惑的是,它似乎还能够将较短的消息解析为较长的消息。

这是错误还是功能?

最佳答案

我认为这是设计使然,但文档可能会更好。

如果您尝试使用 API 而没有先阅读有关有线格式的信息,则可能会出现这种混淆。如您所料,有线格式与 API 并非无关紧要。

有线格式强调紧凑性而非正确性。如果您想检查消息的正确性,我们邀请您使用其他方式。

您可以(可以说应该或必须)在您的消息中包含以下一项或多项内容:

  • 消息类型字段
  • 消息长度字段
  • 校验和

关于能够将较短消息解析为较长消息的第二点是因为在 Protocol Buffer 3 中,所有字段都是可选的。protocol buffers 2 有一个必填字段的概念。它的删除引起了一些争议(参见例如 Why required and optional is removed in Protocol Buffers 3https://capnproto.org/faq.html#how-do-i-make-a-field-required-like-in-protocol-buffers )。消息中不包含具有默认值(通常为 0)的字段。字段名称也由数字代替。因此,“不同”协议(protocol)的两条消息可能很容易被双方解释。

关于c++ - Protocol Buffer ParseFromString 不检查消息结尾,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51562541/

48 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com