java - 高性能序列化 : Java vs Google Protocol Buffers vs . ..？-6ren

java - 高性能序列化 : Java vs Google Protocol Buffers vs . ..？

转载作者：IT老高更新时间：2023-10-28 20:28:57

25

4

对于我正在考虑为即将到来的项目做的一些缓存，我一直在考虑 Java 序列化。即，应该使用它吗？

现在我在过去的几年中出于各种原因编写了自定义序列化和反序列化(Externalizable)。如今，互操作性已成为一个更大的问题，我可以预见到需要与 .Net 应用程序交互，因此我考虑使用独立于平台的解决方案。

有没有人有过高性能使用 GPB 的经验？它在速度和效率方面与 Java 的原生序列化相比如何？或者，还有其他值得考虑的方案吗？

最佳答案

我没有在速度方面将 Protocol Buffers 与 Java 的 native 序列化进行比较，但对于互操作性，Java 的 native 序列化是一个严重的禁忌。在大多数情况下，它在空间方面也不会像 Protocol Buffer 那样有效。当然，它在可以存储的内容和引用等方面更加灵活。Protocol Buffers 非常擅长于它的用途，并且当它满足您的需要时它很棒 - 但由于互操作性存在明显的限制(和其他东西)。

我最近发布了一个用 Java 和 .NET 编写的 Protocol Buffers 基准测试框架。 Java 版本位于 main Google project (在 benchmarks directory 中)，.NET 版本在 my C# port project 中.如果您想将 PB 速度与 Java 序列化速度进行比较，您可以编写类似的类并对其进行基准测试。不过，如果您对互操作感兴趣，我真的不会再考虑原生 Java 序列化(或 .NET 原生二进制序列化)。

除了Protocol Buffers之外，还有其他可互操作的序列化选项 - Thrift , JSON和 YAML浮现在脑海中，毫无疑问还有其他人。

编辑:好的，由于互操作不是那么重要，因此值得尝试列出您希望从序列化框架中获得的不同品质。您应该考虑的一件事是版本控制——这是 PB 旨在处理好的另一件事，无论是向后还是向前(所以新软件可以读取旧数据，反之亦然)——当然，当你坚持建议的规则时 :)

在尝试对 Java 性能与 native 序列化保持谨慎时，如果发现 PB 更快，我真的不会感到惊讶。如果您有机会，请使用服务器虚拟机 - 我最近的基准测试显示服务器虚拟机在序列化和反序列化示例数据方面的速度是 两倍以上。我认为 PB 代码非常适合服务器 VM 的 JIT :)

正如示例性能数据，序列化和反序列化两条消息(一条 228 字节，一条 84750 字节)我使用服务器 VM 在笔记本电脑上获得了这些结果:

Benchmarking benchmarks.GoogleSize$SizeMessage1 with file google_message1.dat Serialize to byte string: 2581851 iterations in 30.16s; 18.613789MB/s Serialize to byte array: 2583547 iterations in 29.842s; 18.824497MB/s Serialize to memory stream: 2210320 iterations in 30.125s; 15.953759MB/s Deserialize from byte string: 3356517 iterations in 30.088s; 24.256632MB/s Deserialize from byte array: 3356517 iterations in 29.958s; 24.361889MB/s Deserialize from memory stream: 2618821 iterations in 29.821s; 19.094952MB/s Benchmarking benchmarks.GoogleSpeed$SpeedMessage1 with file google_message1.dat Serialize to byte string: 17068518 iterations in 29.978s; 123.802124MB/s Serialize to byte array: 17520066 iterations in 30.043s; 126.802376MB/s Serialize to memory stream: 7736665 iterations in 30.076s; 55.93307MB/s Deserialize from byte string: 16123669 iterations in 30.073s; 116.57947MB/s Deserialize from byte array: 16082453 iterations in 30.109s; 116.14243MB/sDeserialize from memory stream: 7496968 iterations in 30.03s; 54.283176MB/s Benchmarking benchmarks.GoogleSize$SizeMessage2 with file google_message2.dat Serialize to byte string: 6266 iterations in 30.034s; 16.826494MB/s Serialize to byte array: 6246 iterations in 30.027s; 16.776697MB/s Serialize to memory stream: 6042 iterations in 29.916s; 16.288969MB/s Deserialize from byte string: 4675 iterations in 29.819s; 12.644595MB/s Deserialize from byte array: 4694 iterations in 30.093s; 12.580387MB/s Deserialize from memory stream: 4544 iterations in 29.579s; 12.389998MB/s Benchmarking benchmarks.GoogleSpeed$SpeedMessage2 with file google_message2.dat Serialize to byte string: 39562 iterations in 30.055s; 106.16416MB/s Serialize to byte array: 39715 iterations in 30.178s; 106.14035MB/s Serialize to memory stream: 34161 iterations in 30.032s; 91.74085MB/s Deserialize from byte string: 36934 iterations in 29.794s; 99.98019MB/s Deserialize from byte array: 37191 iterations in 29.915s; 100.26867MB/s Deserialize from memory stream: 36237 iterations in 29.846s; 97.92251MB/s

“速度”与“大小”是生成的代码是否针对速度或代码大小进行了优化。 (两种情况下的序列化数据是相同的。“size”版本是为您定义了很多消息并且不想为代码占用大量内存的情况提供的。)

如您所见，对于较小的消息，它可以非常快速 - 每毫秒序列化或反序列化超过 500 条小消息。即使有 87K 条消息，每条消息也只需要不到一毫秒的时间。

关于java - 高性能序列化 : Java vs Google Protocol Buffers vs . ..？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/647779/

25

4

0

文章推荐： java - 使用 HTTPUrlConnection 时如何保留 cookie？

文章推荐： python - 为什么 Python 列表加法必须是同质的？

文章推荐： Java: "prime"数字或 "power of two"作为 HashMap 大小？

文章推荐： python - 三引号内可以有变量吗？如果是这样，怎么做？

node.js - 为什么 `buffer` 和 `new Buffer(buffer.toString())` 并不总是逐字节相等？
我期望 new Buffer(buffer.toString()) 始终是逐字节相等的。但是，我遇到的情况并非如此。首先，这是一个真实的案例: var buf1 = new Buffer(32);
protocol-buffers - Protocol Buffer 对象的增量写入
我有用于记录数据的 Protocol Buffer 。 message Message { required double val1 = 1; optional int val2 =
protocol-buffers - Protocol Buffer 是否支持具有共享引用的对象图的序列化？
请注意以下简单程序(基于 protobuf-net 项目 v1 wiki 中的示例): using System.Collections.Generic; using System.Diagnosti
protocol-buffers - Protocol Buffers 消息中的集合？
在 Protocol Buffer 中，有没有办法让消息包含嵌套消息的集合？例如，消息主管可能有一个员工集合以及主管的姓名和部门。最佳答案是的。您使用 repeated领域； message Em
protocol-buffers - 损坏的数据和 Protocol Buffer
我想知道 Protocol Buffer 在解析流时如何处理损坏的数据。有没有办法知道数据是否已损坏。 Protocol Buffer 是否提供任何内置的数据完整性检查机制？谢谢，最佳答案没有任
protocol-buffers - Protocol Buffer 如何处理版本控制？
Protocol Buffer 如何处理类型版本控制？例如，当我需要随时间更改类型定义时？就像添加和删除字段一样。最佳答案 Google 设计的 protobuf 对版本控制非常宽容: 意外数据要
protocol-buffers - Protocol Buffer - 用例
我尝试阅读 Protobuf 文档，但无法想象它可以用于许多用例。我想知道一些实际的 Protocol Buffer 性能改进用例。谢谢最佳答案 Protocol buffers 是一个序列化库，
protocol-buffers - Protocol Buffer 序列化输出是否完全确定？
给定 Protocol Buffer 模式和一些数据， Protocol Buffer 序列化是否跨库和语言具有确定性？基本上，无论使用什么库，我是否可以保证相同的数据总是以相同的方式(直到字节)序
uwp - 如何将字节复制到 Windows::Storage::Streams::Buffer 或 Buffer 以通过 Windows::Storage::Streams::DataWriter::Write Buffer() 输出
我正在使用一个示例 UWP C++/CX 程序，该程序创建两个 UDP 网络通信线程，它们使用 Windows::Storage::Streams::DataWriter 相互发送数据。和 Windo
protocol-buffers - Google Protocol Buffer 错误 : "Encountered string containing invalid UTF-8 data while serializing protocol buffer"
我正在使用以下代码 int lenSend = odl->ByteSize(); char* buf = (char *)malloc(lenSend); odl->SerializeToArray(
protocol-buffers - 从生成的 Protocol Buffer 类继承
Protocol Buffer 文档警告说...... You should never add behaviour to the generated classes by inheriting fr
protocol-buffers - 停止省略 Protocol Buffer 中的默认值
我有一个定义如下的原型(prototype)模式， message User { int64 id = 1; bool email_subscribed = 2; bool sms_
protocol-buffers - 如何解释 Protocol Buffer 的嵌入式消息二进制有线格式？
我试图了解 Protocol Buffer 编码方法，将消息转换为二进制(或十六进制)格式时，我无法理解嵌入消息的编码方式。我猜可能和内存地址有关，但我找不到准确的关系。这是我所做的。第 1 步
protocol-buffers - 确定 Protocol Buffer 消息类型的最佳实践
我需要序列化和反序列化一系列与字节流之间的 Protocol Buffer 消息。有一些预先确定的消息类型。编码类型信息的推荐方法是什么，以便我的应用程序可以知道它应该读取哪种类型？最佳答案最常见
protocol-buffers - gson vs Protocol Buffer
与GSON相比， Protocol Buffer (protobuf)的优缺点是什么？在什么情况下，protobuf比GSON更合适？对于一个非常笼统的问题，我感到抱歉。最佳答案 json(通过
protocol-buffers - 如何在 Protocol Buffer 中提供默认值？
message Person { required Empid = 1 [default = 100]; required string name = 2 [default = "Raju"]
protocol-buffers - Google Protocol Buffer 的典型内存空间使用情况是多少？
我正在研究一个小型设备，该设备具有相当大的一组配置参数(~100 KB)，这些参数是从 PC 软件生成的。过去，我们将参数存储在二进制文件中并将它们加载到数据结构中。维护有点烦人(不同的语言，确保结构
protocol-buffers - Google Protocol Buffer :ZigZag编码
来自Encoding - Protocol Buffers - Google Code上的“签名类型”: ZigZag encoding maps signed integers to unsigne
protocol-buffers - Protocol Buffer - 唯一编号标签 - 澄清？
我正在使用 Protocol Buffer ，一切正常。除了我不明白的事实 - 为什么我需要 proto 中的编号标签文件 : message SearchRequest { required s
protocol-buffers - 如何设计 Protocol Buffer 中将来的附加枚举值？
Protocol Buffer 的吸引人的功能之一是它允许您扩展消息定义，而不会破坏使用较旧定义的代码。对于枚举according to the documentation: a field with

首页

博学

6Ren·AI

商城

java - 高性能序列化 : Java vs Google Protocol Buffers vs . ..？