- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在将我的一些 DataContractSerializer 使用切换到 Protocol Buffer 序列化(特别是使用 protobuf-net),目标是更快的序列化和更小的序列化数据大小以存储在数据库 blob 中。
我发现更改对象模型对消息大小有很大影响。我认为这意味着我的序列化数据由于我选择的对象模型而被人为地夸大了,我想解决这个问题。
具体来说,我的问题是:我可以更改我的 protobuf-net 用法,或者可能更改序列化库,以获得更小的消息大小吗?我将在下面给出一个对象模型以及到目前为止我已经弄清楚的内容。
在我的例子中,我正在序列化 OCR 数据...这是一个简化的对象模型:
[ProtoContract(SkipConstructor = true, UseProtoMembersOnly = true)]
public class OcrTable
{
[ProtoMember(1)]
public List<OcrTableCell> Cells;
}
[ProtoContract(SkipConstructor = true, UseProtoMembersOnly = true)]
public class OcrTableCell
{
[ProtoMember(1)]
public int Row;
[ProtoMember(2)]
public int Column;
[ProtoMember(3)]
public int RowSpan;
//...
[ProtoMember(10)]
public int Height;
[ProtoMember(11)]
public List<OcrCharacter> Characters;
}
[ProtoContract(SkipConstructor = true, UseProtoMembersOnly = true)]
public class OcrCharacter
{
[ProtoMember(1)]
public int Code;
[ProtoMember(2)]
public int Data;
[ProtoMember(3)]
public int Confidence;
//...
[ProtoMember(11)]
public int Width;
}
由于数据最终只是一堆关联的基元(主要是 int
的),我认为打包位序列化的好处会有所帮助,但在当前的类结构中,所有实际列表都是自定义的类型。
为了允许打包位序列化,我修改了完全删除自定义类型,并拥有多个基元列表,并按它们的顺序进行关联。例如:
[ProtoContract(SkipConstructor = true, UseProtoMembersOnly = true)]
public class OcrTableCell
{
[ProtoMember(1)]
public int Row;
//...
[ProtoMember(10)]
public int Height;
[ProtoMember(11, IsPacked=true)]
public List<int> CharacterCode;
[ProtoMember(12, IsPacked=true)]
public List<int> CharacterData;
//...
[ProtoMember(21, IsPacked=true)]
public List<int> CharacterWidth;
}
在这里你可以看到我替换了List<OcrCharacter>
有多个列表:OcrCharacter
中的每个字段一个.这对序列化数据大小有相当大的影响,在某些情况下减少了三分之二(即使在 gzip 压缩之后)。
我认为仅仅为了支持序列化而对我的对象模型进行这样的更改是不切实际的……并且保留第二个“助手”模型来为序列化做准备似乎是不可取的。
仍然让我感到困扰的是,我有一个人为膨胀的序列化数据大小只是因为数据的对象模型。
是否有更好的序列化参数或库选择来序列化此类对象图?我确实尝试设置 DataFormat=DataFormat.Group
在 ProtoMember
上属性应用于列表,但看到消息大小的变化为 0,这让我感到困惑。
最佳答案
protobuf-net 中没有任何东西可以神奇地重新排列您的对象模型以利用特定功能;这需要对数据有详细的了解,这对人类来说是显而易见的,但很难概括。无需投入大量时间,这里的答案很简单:它将按照模型中的布局对其进行序列化——如果这不是完美的方案:就这样吧。
至于Group
数据格式无济于事:分组的子消息仅适用于 List<OcrCharacter>
之类的东西;因为字段号是 11
,它保证需要 2 个字节的开销:1 个字节用于起始组标记,1 个字节用于结束组标记。替代方案是长度前缀,需要 1 个字节用于字段 header ,以及一个变量 字节数作为子消息的长度,编码为varint
.如果每条子消息小于 128 字节,这仍然只需要一个字节来编码长度(因此总共 2 个字节)——这可能是它没有任何区别的原因:每个个体 OcrCharacter
Group
足够小(小于 128 字节)帮不上忙。
关于c# - 具有大量非原始类型列表的 Protocol Buffer 序列化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16993940/
当需要将原始类型转换为字符串时,例如传递给需要字符串的方法时,基本上有两种选择。 以int为例,给出: int i; 我们可以执行以下操作之一: someStringMethod(Integer.to
我有一个位置估计数据库,并且想要计算每月的内核利用率分布。我可以使用 R 中的 adehabitat 包来完成此操作,但我想使用引导数据库中的样本来估计这些值的 95% 置信区间。今天我一直在尝试引导
我希望使用 FTP 编写大型机作业流。为此,我可以通过 FTP 连接到大型机并运行以下命令: QUOTE TYPE E QUOTE SITE FILETYPE=JES PUT myjob.jcl 那么
我是 WPF 的新手。 目前,我正在为名为“LabeledTextbox”的表单元素制作一个用户控件,其中包含一个标签、一个文本框和一个用于错误消息的文本 block 。 当使用代码添加错误消息时,我
我们正在使用 SignalR(原始版本,而不是 Core 版本)并注意到一些无法解释的行为。我们的情况如下: 我们有一个通过 GenericCommand() 方法接受命令的集线器(见下文)。 这些命
使用 requests module 时,有没有办法打印原始 HTTP 请求? 我不只想要标题,我想要请求行、标题和内容打印输出。是否可以看到最终由 HTTP 请求构造的内容? 最佳答案 Since
与直接访问现有本地磁盘或分区的物理磁盘相比,虚拟磁盘为文件存储提供更好的可移植性和效率。VMware有三种不同的磁盘类型:原始磁盘、厚磁盘和精简磁盘,它们各自分配不同的存储空间。 VMware
我有一个用一些颜色着色器等创建的门。 前段时间我拖着门,它问我该怎么办时,我选择了变体。但现在我决定选择创建原始预制件和门颜色,或者着色器变成粉红色。 这是资源中原始预制件和变体的屏幕截图。 粉红色的
我想呈现原始翻译,所以我决定在 Twig 模板中使用“原始”选项。但它不起作用。例子: {{ form_label(form.sfGuardUserProfile.roules_acceptance)
是否可以在sqlite中制作类似的东西? FOREIGN KEY(TypeCode, 'ARawValue', IdServeur) REFERENCES OTHERTABLE(TypeCode, T
这个问题是一个更具体问题的一般版本 asked here .但是,这些答案无法使用。 问题: geoIP数据的原始来源是什么? 许多网站会告诉我我的 IP 在哪里,但它们似乎都在使用来自不到 5 家公
对于Openshift:如何基于Wildfly创建docker镜像? 这是使用的Dockerfile: FROM openshift/wildfly-101-centos7 # Install exa
结果是 127 double middle = 255 / 2 虽然这产生了 127.5 Double middle = 255 / 2 同时这也会产生 127.5 double middle = (
在此处下载带有已编译可执行文件的源代码(大小:161 KB(165,230 字节)):http://www.eyeClaxton.com/download/delphi/ColorSwap.zip 原
以下几行是我需要在 lua 中使用的任意正则表达式。 ['\";=] !^(?:(?:[a-z]{3,10}\s+(?:\w{3,7}?://[\w\-\./]*(?::\d+)?)?/[^?#]*(
这个问题是一个更具体问题的一般版本 asked here .但是,这些答案无法使用。 问题: geoIP数据的原始来源是什么? 许多网站会告诉我我的 IP 在哪里,但它们似乎都在使用来自不到 5 家公
我正在使用GoLang做服务器api,试图管理和回答所发出的请求。使用net/http和github.com/gorilla/mux。 收到请求时,我使用以下结构创建响应: type Response
tl; dr:我认为我的 static_vector 有未定义的行为,但我找不到它。 这个问题是在 Microsoft Visual C++ 17 上。我有这个简单且未完成的 static_vecto
我试图找到原始 Awk (a/k/a One True Awk) 源代码的“历史”版本。我找到了 Kernighan's occasionally-updated site ,它似乎总是链接到最新版本
我在 python 中使用原始 IPv6 套接字时遇到一些问题。我通过以下方式连接: if self._socket != None: # Close out old sock
我是一名优秀的程序员,十分优秀!