c++ - 在 C++ 中将大数据 vector 写入/读取到二进制文件-6ren

c++ - 在 C++ 中将大数据 vector 写入/读取到二进制文件

转载作者：太空狗更新时间：2023-10-29 20:57:57

我有一个 C++ 程序，它通过将网格化的人口数据从 ascii 文件读取到一个 8640x3432 元素的 double vector 来计算给定半径内的人口。将 ascii 数据读入 vector 需要大约 30 秒(遍历每一列和每一行)，而程序的其余部分只需要几秒钟。我被要求通过将人口数据写入一个二进制文件来加快这个过程，据说这样读取速度会更快。

ascii 数据文件有一些标题行，提供一些数据规范，例如列数和行数，后面是每个网格单元格的人口数据，格式为 3432 行，每行 8640 个数字，以空格分隔。人口数据数字是混合格式，可以是 0、十进制值 (0.000685648) 或科学记数法的值 (2.687768e-05)。

我找到了一些读取/写入包含 vector 的结构的示例，并尝试实现类似的东西，但遇到了问题。当我在同一个程序中写入和读取二进制文件的 vector 时，它似乎工作并为我提供了所有正确的值，但它以“段错误:11”或内存分配错误结束“未分配正在释放的指针”。如果我尝试只从以前写入的二进制文件中读取数据(而不是在同一个程序运行中重写它)，那么它会给我头变量就好了，但在给我 vector 数据之前会给我一个段错误。

任何关于我可能做错了什么的建议，或者更好的方法，将不胜感激!我是在mac上编译运行的，目前没有boost之类的非标准库。 (注意:我在编码方面非常陌生，必须通过深入学习来学习，所以我可能会遗漏很多基本概念和术语——抱歉!)。

这是我想出的代码:

# include <stdio.h>
# include <stdlib.h>
# include <string.h>
# include <fstream>
# include <iostream>
# include <vector>
# include <string.h>

using namespace std;

//Define struct for population file data and initialize one struct variable for reading in ascii (A) and one for reading in binary (B)
struct popFileData
{
    int nRows, nCol;
    vector< vector<double> > popCount; //this will end up having 3432x8640 elements
} popDataA, popDataB;

int main() {

    string gridFname = "sample";

    double dum;
    vector<double> tempVector;

    //open ascii population grid file to stream
    ifstream gridFile;
    gridFile.open(gridFname + ".asc");

    int i = 0, j = 0;

    if (gridFile.is_open())
    {
        //read in header data from file
        string fileLine;
        gridFile >> fileLine >> popDataA.nCol;
        gridFile >> fileLine >> popDataA.nRows;

        popDataA.popCount.clear();

        //read in vector data, point-by-point
        for (i = 0; i < popDataA.nRows; i++)
        {
            tempVector.clear();

            for (j = 0; j<popDataA.nCol; j++)
            {
                gridFile >> dum;
                tempVector.push_back(dum);
            }
            popDataA.popCount.push_back(tempVector);
        }
        //close ascii grid file
        gridFile.close();
    }
    else
    {
        cout << "Population file read failed!" << endl;
    }

    //create/open binary file
    ofstream ofs(gridFname + ".bin", ios::trunc | ios::binary);
    if (ofs.is_open())
    {
        //write struct to binary file then close binary file
        ofs.write((char *)&popDataA, sizeof(popDataA));
        ofs.close();
    }
    else cout << "error writing to binary file" << endl;

    //read data from binary file into popDataB struct
    ifstream ifs(gridFname + ".bin", ios::binary);
    if (ifs.is_open())
    {
        ifs.read((char *)&popDataB, sizeof(popDataB));
        ifs.close();
    }
    else cout << "error reading from binary file" << endl;

    //compare results of reading in from the ascii file and reading in from the binary file
    cout << "File Header Values:\n";
    cout << "Columns (ascii vs binary): " << popDataA.nCol << " vs. " << popDataB.nCol << endl;
    cout << "Rows (ascii vs binary):" << popDataA.nRows << " vs." << popDataB.nRows << endl;

    cout << "Spot Check Vector Values: " << endl;
    cout << "Index 0,0: " << popDataA.popCount[0][0] << " vs. " << popDataB.popCount[0][0] << endl;
    cout << "Index 3431,8639: " << popDataA.popCount[3431][8639] << " vs. " << popDataB.popCount[3431][8639] << endl;
    cout << "Index 1600,4320: " << popDataA.popCount[1600][4320] << " vs. " << popDataB.popCount[1600][4320] << endl;

    return 0;
}

这是我在同一次运行中写入和读取二进制文件时的输出:

File Header Values:
Columns (ascii vs binary): 8640 vs. 8640
Rows (ascii vs binary):3432 vs.3432
Spot Check Vector Values: 
Index 0,0: 0 vs. 0
Index 3431,8639: 0 vs. 0
Index 1600,4320: 25.2184 vs. 25.2184
a.out(11402,0x7fff77c25310) malloc: *** error for object 0x7fde9821c000: pointer being freed was not allocated
*** set a breakpoint in malloc_error_break to debug
Abort trap: 6

下面是我尝试从预先存在的二进制文件中读取时得到的输出:

File Header Values:
Columns (binary): 8640
Rows (binary):3432
Spot Check Vector Values: 
Segmentation fault: 11

在此先感谢您的帮助!

最佳答案

当您将 popDataA 写入文件时，您正在写入 vector vector 的二进制表示形式。然而，这确实是一个非常小的对象，由一个指向实际数据的指针(在本例中它本身是一系列 vector )和一些大小信息组成。

当它被读回 popDataB 时，它可以正常工作!但只是因为 popDataA 中的原始指针现在位于 popDataB 中，并且它指向内存中的相同内容。最后事情变得疯狂，因为当 vector 的内存被释放时，代码尝试释放 popDataA 引用的数据两次(一次用于 popDataA，另一次对于 popDataB。)

简而言之，以这种方式将 vector 写入文件是不合理的。

那怎么办？最好的方法是首先决定你的数据表示。它将像 ASCII 格式一样，指定在何处写入什么值，并将包含有关矩阵大小的信息，以便您知道在读入它们时需要分配多大的 vector 。

在半伪代码中，写作看起来像这样:

int nrow=...;
int ncol=...;
ofs.write((char *)&nrow,sizeof(nrow));
ofs.write((char *)&ncol,sizeof(ncol));
for (int i=0;i<nrow;++i) {
    for (int j=0;j<ncol;++j) {
        double val=data[i][j];
        ofs.write((char *)&val,sizeof(val));
    }
}

阅读会反过来:

ifs.read((char *)&nrow,sizeof(nrow));
ifs.read((char *)&ncol,sizeof(ncol));
// allocate data-structure of size nrow x ncol
// ...
for (int i=0;i<nrow;++i) {
    for (int j=0;j<ncol;++j) {
        double val;
        ifs.read((char *)&val,sizeof(val));
        data[i][j]=val;
    }
}

尽管如此，您应该考虑不要像这样将内容写入二进制文件。这些特殊的二进制格式往往会继续存在，远远超过其预期的效用，并且往往会受到以下问题的影响:

缺乏文件
缺乏可扩展性
没有版本控制信息的格式更改
在不同机器上使用保存的数据时出现问题，包括字节顺序问题、整数的不同默认大小等。

相反，我强烈建议使用第三方库。对于科学数据，HDF5 和 netcdf4 是很好的选择，它们可以为您解决上述所有问题，并附带可以在您对特定程序一无所知的情况下检查数据的工具。

轻量级选项包括 Boost 序列化库和 Google 的 Protocol Buffer ，但它们只能解决上面列出的部分问题。

关于c++ - 在 C++ 中将大数据 vector 写入/读取到二进制文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28886899/

文章推荐： c++ - 这个转发函数中如何自动推导出T？

文章推荐： c# - XAML StringFormat 用于格式化 Double 值

文章推荐： python - Flask - WSGI - 没有名为 'flask' 的模块

url - 文件 :/, 文件 ://, 文件:///和有什么区别
今天我在一个 Java 应用程序中看到了几种不同的加载文件的方法。文件:/ 文件:// 文件:/// 这三个 URL 开头有什么区别？使用它们的首选方式是什么？非常感谢斯特凡最佳答案 file
EDI X12 文件 - 文件
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
c# - 从 javascript 文件(.js 文件)调用 C# 函数(.cs 文件)
我有一个 javascript 文件，并且在该方法中有一个“测试”方法，我喜欢调用 C# 函数。 c# 函数与 javascript 文件不在同一文件中。它位于 .cs 文件中。那么我该如何管理 j
java - 文件.canWrite();文件.canRead();文件.canExceute();尽管我的文件/目录没有访问权限，但始终返回 true
需要检查我使用的文件/目录的权限 //filePath = path of file/directory access denied by user ( in windows ) File fil
intellij-idea - 将外部 java 文件(*.java 文件，而不是 jar 文件)添加到 Intellij 中的项目
我在一个目录中有很多 java 文件，我想在我的 Intellij 项目中使用它。但是我不想每次开始一个新项目时都将 java 文件复制到我的项目中。我知道我可以在 Visual Studio 和
linux - 我不小心复制了一个 bash 文件，并将其替换为 Linux Mint 中的 .bashrc 文件。我该如何检索 .bashrc 文件？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
php - 在 Twig 文件 B 中渲染 Twig 文件 A 但仅在查看 Twig 文件 C 时？
我有 3 个组件的 Twig 文件: 文件 1: {# content-here #} 文件 2: {{ title-here }} {# content-here #}
linux - 如何在 Linux 中将 .c 文件转换为 .so 文件？我有 .c 文件。并需要 Linux 命令将其转换为 .so 文件
我得到了 mod_ldap.c 和 mod_authnz_ldap.c 文件。我需要使用 Linux 命令的 mod_ldap.so 和 mod_authnz_ldap.so 文件。最佳答案从 c
javascript - 文件 .htc 文件 - 我需要网络服务器吗？
我想使用PIE在我的项目中使用 IE7。但是我不明白的是，我只能在网络服务器上使用 .htc 文件吗？我可以在没有网络服务器的情况下通过浏览器加载的本地页面中使用它吗？我在 PIE 的文档中看到
Java docker 文件。构建并测试还是只运行 jar 文件？
我在 CI 管道中考虑这一点，我应该首先构建和测试我的应用程序，结果应该是一个 docker 镜像。我想知道使用构建环境在构建服务器上构建然后运行测试是否更常见。也许为此使用构建脚本。最后只需将 j
C++ 文件 I/O 我无法读取 .dat 文件
using namespace std; struct WebSites { string siteName; int rank; string getSiteName() {
c++ - 尽管链接了库文件夹中的 .so 文件，但缺少 .h 文件
我是 Linux 新手，目前正在尝试使用 ginkgo USB-CAN 接口(interface) 的 API 编程功能。为了使用 C++ 对 API 进行编程，他们提供了库文件，其中包含三个带有 .
C 文件 I/O，使用 TXT 文件
我刚学C语言，在实现一个程序时遇到了问题将 test.txt 文件作为程序的输入。 test.txt 文件的内容是: 1 30 30 40 50 60 2 40 30 50 60 60 3 30 20
networking - 如何连接两个 tcpdump 文件(pcap 文件)
如何连接两个tcpdump文件，使一个流量在文件中出现一个接一个？具体来说，我想“乘以”一个 tcpdump 文件，这样所有的 session 将一个接一个地按顺序重复几次。最佳答案 mergeca
video - 修复损坏的 .MP4 文件。这可能是一个 3gp 文件
我有一个名为 input.MP4 的文件，它已损坏。它来自闭路电视摄像机。我什么都试过了，ffmpeg , VLC 转换，没有运气。但是，我使用了 mediainfo和 exiftool并提取以下信息
android - 如何提取 ISO 文件，然后将其重新打包成可用的 ISO 文件？
我想做什么？我想提取 ISO 文件并编辑其中的文件，然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做？我想开始修改 PSP ISO，为此我必须使用游戏资源、 Assets
compression - 给定一个解压缩的 gzip 文件，有没有办法重新创建准确的原始 gzip 文件？
给定一个 gzip 文件 Z，如果我将其解压缩为 Z'，有什么办法可以重新压缩它以恢复完全相同的 gzip 文件 Z？在粗略阅读了 DEFLATE 格式后，我猜不会，因为任何给定的文件都可能在 DEF
sql-server - 带附件的数据库电子邮件(excel 文件/pdf 文件)？
我必须从数据库向我的邮件 ID 发送一封带有附件的邮件。 EXEC msdb.dbo.sp_send_dbmail @profile_name = 'Adventure Works Admin
audio - 如果我有 CUE 文件，如何拆分 M4B 文件？
我有一个大的 M4B 文件和一个 CUE 文件。我想将其拆分为多个 M4B 文件，或将其拆分为多个 MP3 文件(以前首选)。我想在命令行中执行此操作(OS X，但如果需要可以使用 Linux)，而
ios - 是否有编译器标志以便链接器警告我这个？ .h 文件，没有 .m 文件
快速提问。我有一个没有实现文件的类的项目。然后在 AppDelegate 我有: #import "AppDelegate.h" #import "SomeClass.h" @interface A

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 在 C++ 中将大数据 vector 写入/读取到二进制文件