c# - 为什么我的代码中的 protobuf-net 反序列化器比流式读取 csv 慢得多-6ren

c# - 为什么我的代码中的 protobuf-net 反序列化器比流式读取 csv 慢得多

转载作者：行者123 更新时间：2023-11-30 21:09:19

25

4

我以下列格式存储简单的时间序列，并寻找最快的方式来读取和解析它们以“引用”对象:

日期时间、价格 1、价格 2...DateTime 采用以下字符串格式:YYYYmmdd HH:mm:ss:fffprice1和price 2是小数点后5位的数字串(即1.40505)

我试用了不同的方式来存储和读取数据，还试用了 protobuf-net 库。一个已序列化并包含大约 600 万行的文件(按以下方式序列化的原始 csv:

TimeSeries 对象，持有一个 List<Blobs> ,包含 Header 对象和 List<Quotes> 的 Blob 对象(一个 blob 包含一天的引号)包含 DateTime、double px1 和 double px2 的 Quote 对象

(从磁盘)读取序列化二进制文件并反序列化它花了大约 47 秒，这看起来非常长。相比之下，我将时间序列保留为 csv 字符串格式，将每一行读入一个列表，然后将每一行解析为 DateTime dt、double px1、double px1，我将其插入新创建的 Quote 对象并将它们添加到列表中。读取大约需要 10 秒(使用 GZip 压缩需要 12 秒 -> 使文件大小减少 1/9。)

乍一看，我似乎要么错误地处理了 protobuf-net 功能，要么这种特殊类型的时间序列本身不适用于序列化/反序列化。

任何评论或帮助，尤其是 Marc，如果您读到这篇文章，您是否可以插话并添加一些您的想法？我很难想象我最终会得到如此不同的性能数据。

一些信息:我不需要随机访问数据。我只需要阅读一整天，因此将一天的数据存储在一个单独的 csv 文件中对我的目的来说是有意义的，我想。

有什么想法可以最快地读取此类数据吗？我为简单的语言道歉，我不是一个真正的程序员。

这是我用于 protobuf-net 的示例对象:

[ProtoContract]
class TimeSeries
{
    [ProtoMember(1)]
    public Header Header { get; set; }
    [ProtoMember(2)]
    public List<DataBlob> DataBlobs { get; set; }
}

[ProtoContract]
class DataBlob
{
    [ProtoMember(1)]
    public Header Header { get; set; }
    [ProtoMember(2)]
    public List<Quote> Quotes { get; set; }
}

[ProtoContract]
class Header
{
    [ProtoMember(1)]
    public string SymbolID { get; set; }
    [ProtoMember(2)]
    public DateTime StartDateTime { get; set; }
    [ProtoMember(3)]
    public DateTime EndDateTime { get; set; }
}

[ProtoContract]
class Quote
{
    [ProtoMember(1)]
    public DateTime DateTime { get; set; }
    [ProtoMember(2)]
    public double BidPrice { get; set; }
    [ProtoMember(3)]
    public long AskPrice { get; set; } //Expressed as Spread to BidPrice
}

这是用于序列化/反序列化的代码:

public static void SerializeAll(string fileNameWrite, List<Quote> QuoteList)
    {
        //Header
        Header Header = new Header();
        Header.SymbolID = SymbolID;
        Header.StartDateTime = StartDateTime;
        Header.EndDateTime = EndDateTime;

        //Blob
        List<DataBlob> DataBlobs = new List<DataBlob>();
        DataBlob DataBlob = new DataBlob();
        DataBlob.Header = Header;
        DataBlob.Quotes = QuoteList;
        DataBlobs.Add(DataBlob);

        //Create TimeSeries
        TimeSeries TimeSeries = new TimeSeries();
        TimeSeries.Header = Header;
        TimeSeries.DataBlobs = DataBlobs;

        using (var file = File.Create(fileNameWrite))
        {
            Serializer.Serialize(file, TimeSeries);
        }
    }

public static TimeSeries DeserializeAll(string fileNameBinRead)
    {
        TimeSeries TimeSeries;

        using (var file = File.OpenRead(fileNameBinRead))
        {
            TimeSeries = Serializer.Deserialize<TimeSeries>(file);
        }

        return TimeSeries;
    }

最佳答案

最快的方法是手动编码的二进制序列化器，尤其是如果你转换 pices ticks。这就是我所做的，尽管我的数量略有不同(每天 6 亿个项目，大约 200.000 个符号，其中一些是头重脚轻的)。我没有以需要从文本解析的方式存储任何内容。解析器是手工制作的，我使用探查器对其进行优化 - aos 可以很好地处理大小(交易有时会降至 1 字节)。

关于c# - 为什么我的代码中的 protobuf-net 反序列化器比流式读取 csv 慢得多，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9082098/

25

4

0

文章推荐： c# - 在 LINQ 查询中将正 bool 结果与 true 和 false 进行比较

文章推荐： c# - 使用 IF 语句选择 session 变量

文章推荐： c# - 使用 C# 更改 AVI 文件标题属性

java - 反/序列化二进制数据
我目前正在对一个 mmorpg 的二进制网络协议(protocol)进行逆向工程。我正在用 java 实现该协议(protocol)。对于每个数据包类型，我将创建一个表示二进制数据的类。例如，聊天
c# - (反)序列化对象的属性而不获取对象的其余部分
我正在尝试围绕现有类编写半透明包装器，我希望它能够模仿其他类的序列化。例如，给定以下类: class Foo { [JsonConverter(CustomConverter)] s
java - (反)序列化枚举集
是否有使用 Jackson 序列化和反序列化枚举集的简单方法？ private enum Type { YES, NO } @JacksonXmlProperty(localName = "t
Java(反)序列化过程
我很想知道当我们反序列化一个对象时会发生什么。例如，如果我的类对象由许多其他对象组成，对象创建过程如何在反序列化过程中发生最佳答案对象是用默认的初始化字段创建的，然后用从串行流中获取的属性值填充
c++ - (反)序列化枚举类
我正在尝试序列化和反序列化(使用 QDataStream 但这与这里无关)一个 enum class变量: enum class Type : char { Trivial, Comp
c++ - 编译麻烦c转c++反
我不确定这到底有什么问题...它不会为我编译，我将它从 c 翻译成 C++(或尝试)...是的，我是初学者。谢谢! #include #include using namespace std; i
json4s - json4s中是否有针对UUID的开箱即用的(反)序列化器？
我遇到的问题与此处描述的问题非常相似:Combining type and field serializers case class(id: Option[UUID], otherValue:Stri
r - 在(反)对角线上应用函数
我们知道base中的apply()可以对数组的边距应用一个函数，边距应该是行或列。我想将边距扩大到“对角线” 和“反对角线”。结构看起来像 diagApply <- function(x, FUN,
json - 如何(反)序列化对象列表？
我找到了 JSON serialization and deserialization to objects in Flutter 的例子但是如何使用像这样的人员列表来做到这一点: [ {
elasticsearch - elasticsearch必须与MUST_NOT(反)差异
我有一个相当大的terms聚合结果，这些结果被加载到下拉列表中以提供filter功能。可以说，我的下拉列表中有4000多种动物。我的另一个下拉列表有4种动物颜色。例， animal --> ["d
c# - 如何(反)序列化具有字符串数组值的可序列化字典？
我需要将 C# (.NET Framework 4.5.2) 中的一个类与 XML 序列化(反序列化)，该类具有 string 的字典属性。键和 string[]数组值。我正在使用 Serializa
c# - 使用json(反)序列化多个对象时的空问题
[已解决]应用给定的解决方案，效果很好! 程序的目的:在用户打开和关闭程序时保存/重新加载以前的数据。我曾经用一个对象(obj)成功(反)序列化，现在我有两个不同类的不同对象。我试图通过查看其他帖
c# - 通过属性在(反)序列化期间控制枚举值格式
问题假设我有一个代表某事或其他的枚举: public enum ResultState { Found, Deleted, NotFound } 在我的序列化 json 中，
javascript - 反 JSON 字符串
是否有取消 JSON 字符串的功能？我猜它不会内置到 JQuery 中，但它可以通过编写一个操纵字符串的脚本来实现吗？我在下面遇到了这个问题。我正在使用 NYTimes API，但它不支持 JSON
java - Java(反)序列化是原子的吗？
对于这个问题，假设当对象完全写入流并成功读出时，或者当对象部分写入流并且读回对象时发生异常时，序列化/反序列化是原子的。假设写操作可能无法成功完成，例如因为停电了。在Serializable的描述中
c - 反 VM 的时间检查效果不佳？
有谁知道时序检查是否仍在检测虚拟环境？我尝试使用 rdtsc 指令来获取 cpu 周期并比较真实 linux 机器和在 virtualbox 上运行的 linux 之间的结果。但结果似乎不稳定。有时，
c# - XML-(反)序列化整数的列表属性作为简单的分隔符分隔序列
我正在对一个(外部给定的)XML 文件进行操作，该文件具有以下形式的元素 10 20 30 40 50 60 70 80 我知道如何将属性作为属性处理(通过使用 [XmlAttri
c# - XML(反)序列化错误命名空间
我有一个通用的序列化器和反序列化器，用于通过网络连接发送的消息: public static async Task SerializeObject(Object obj) {
c# - (反)序列化特定子类而不使用 [ProtoInclude]
我正在考虑将当前基于 WCF 的应用程序迁移到 protobuf-net.Grpc。这似乎是可行的，但是我无法在不包含所有具有 [ProtoInclude] 属性的派生类的情况下使(DTO 类)基类的
c# - 保存的文件包含(反)斜杠
我正在尝试将一些数据保存到文件中，但文件保存到的目录不正确。 using (StreamWriter sw = new StreamWriter(dir + "\\temp" + x + ".txt"

首页

博学

6Ren·AI

商城

c# - 为什么我的代码中的 protobuf-net 反序列化器比流式读取 csv 慢得多