gpt4 book ai didi

c++ - 在使用 Cap'n'Proto 进行序列化的同时流式传输

转载 作者:可可西里 更新时间:2023-11-01 18:28:01 30 4
gpt4 key购买 nike

考虑这样一个 Cap'n'Proto 模式:

struct Document {
header @0 : Header;
records @1 :List(Record); // usually large number of records.
footer @2 :Footer;
}
struct Header { numberOfRecords : UInt32; /* some fields */ };
struct Footer { /* some fields */ };
struct Record {
type : UInt32;
desc : Text;
/* some more fields, relatively large in total */
}

现在我想序列化(即构建)文档实例并将其流式传输到远程目标。

由于文档通常非常大,我不想在发送之前将其完全构建在内存中。相反,我正在寻找一个直接通过网络逐个发送结构的构建器。这样额外需要的内存缓冲区是常量(即 O(max(sizeof(Header), sizeof(Record), sizeof(Footer)))。

查看教程资料我没有找到这样的构建器。 MallocMessageBuilder 似乎首先在内存中创建所有内容(然后您对其调用 writeMessageToFd)。

Cap'n'Proto API 是否支持这样的用例?

或者 Cap'n'Proto 更适合用于在发送前装入内存的消息?

在此示例中,可以省略文档结构,然后可以只发送一个 Header 消息、n 个 Record 消息和一个 Footer 的序列。由于 Cap'n'Proto 消息是自定界的,因此这应该可行。但是您丢失了文档根目录 - 也许有时这不是一个真正的选择。

最佳答案

您概述的解决方案(将文档的各个部分作为单独的消息发送)可能最适合您的用例。从根本上说,Cap'n Proto 不是为流式传输单个消息的 block 而设计的,因为这不适合其随机访问属性(例如,当您尝试跟随指向您尚未收到的 block 的指针时会发生什么然而?)。相反,当您想要流式传输时,您应该将一条大消息拆分成一系列较小的消息。

也就是说,与其他类似系统(例如 Protobuf)不同,Cap'n Proto 并不严格要求消息适合内存。具体来说,您可以使用 mmap(2) 做一些技巧.如果您的文档数据来自磁盘上的文件,您可以将文件 mmap() 放入内存,然后将其合并到您的消息中。使用 mmap(),在您尝试访问内存之前,操作系统实际上不会从磁盘读取数据,而且操作系统还可以在页面被访问后从内存中清除页面,因为它知道它仍然在磁盘上有一个拷贝。这通常可以让您编写更简单的代码,因为您不再需要考虑内存管理。

为了将 mmap()ed block 合并到 Cap'n Proto 消息中,您需要使用 capnp::Orphanage::referenceExternalData() .例如,给定:

struct MyDocument {
body @0 :Data;
# (other fields)
}

你可以这样写:

// Map file into memory.
void* ptr = (kj::byte*)mmap(
nullptr, size, PROT_READ, MAP_PRIVATE, fd, 0);
if (ptr == MAP_FAILED) {
KJ_FAIL_SYSCALL("mmap", errno);
}
auto data = capnp::Data::Reader((kj::byte*)ptr, size);

// Incorporate it into a message.
capnp::MallocMessageBuilder message;
auto root = message.getRoot<MyDocument>();
root.adoptDocumentBody(
message.getOrphanage().referenceExternalData(data));

因为 Cap'n Proto 是零拷贝,它最终会将 mmap()ed 内存直接写入套接字,而无需访问它。然后由操作系统根据需要从磁盘读取内容并输出到套接字。

当然,你在接收端还是有问题的。您会发现将接收端设计为读入 mmap()ed 内存要困难得多。一种策略可能是首先将整个流直接转储到一个文件(不涉及 Cap'n Proto 库),然后 mmap() 该文件并使用 capnp::FlatArrayMessageReader 就地读取 mmap()ed 数据。

我描述这一切是因为这是一件很巧妙的事情,Cap'n Proto 可以做到这一点,但大多数其他序列化框架却做不到(例如,你不能用 Protobuf 做到这一点)。使用 mmap() 玩把戏有时真的很有用——我在 Sandstorm 的几个地方成功地使用了它。 , Cap'n Proto 的父项目。但是,我怀疑对于您的用例,将文档拆分为一系列消息可能更有意义。

关于c++ - 在使用 Cap'n'Proto 进行序列化的同时流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34824709/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com