c++ - 将文件读入结构时大小增加 10 倍-6ren

c++ - 将文件读入结构时大小增加 10 倍

转载作者：塔克拉玛干更新时间：2023-11-03 00:07:25

27

4

我正在尝试将一个 csv 文件读入一个包含字符串 vector 的结构。该文件包含约 200 万行，磁盘大小约为 350 MB。当我将文件读入 struct top 时，显示在读取完整文件时，程序现在使用了将近 3.5GB 的内存。我已经使用 vector 保留来尝试限制 push_back 上 vector 容量的增加。

#include<iomanip>
#include<stdio.h>
#include<stdlib.h>
#include<iostream>
#include<fstream>
#include<string.h>
#include<sstream>
#include<math.h>
#include<vector>
#include<algorithm>
#include<array>
#include<ctime>
#include<boost/algorithm/string.hpp>
using namespace std;

struct datStr{
  vector<string> colNames;
  vector<vector<string>> data;
};

datStr readBoost(string fileName)
{
  datStr ds;
  ifstream inFile;
  inFile.open(fileName);
  string line;
  getline(inFile, line);
  vector<string> colNames;
  stringstream ss(line);
  string item;
  int i = 0;
  vector<int> colTypeInt;
  while(getline(ss, item, ','))
  {
      item.erase( remove( item.begin(), item.end(), ' ' ), item.end() );
      colNames.push_back(item);
      vector<string> colVec;
      ds.data.push_back(colVec);
      ds.data[i].reserve(3000000);
      i++;
  }

  int itr = 0;
  while(getline(inFile, line))
  {
      vector<string> rowStr;
      boost::split(rowStr, line, boost::is_any_of(","));
      for(int ktr = 0; ktr < rowStr.size(); ktr++)
      {
          rowStr[ktr].erase( remove( rowStr[ktr].begin(), rowStr[ktr].end(), ' ' ), rowStr[ktr].end() );
          ds.data[ktr].push_back(rowStr[ktr]);
      }
      itr++;
  }
 int main()
 {
  datStr ds = readBoost("file.csv");
  while(true)
  {
  }
 }

PS:最后的 while 只是为了让我可以在程序完成时监控内存使用情况。这是使用 vector 时预期的结果还是我在这里遗漏了什么？另一个有趣的事实。我开始计算读取循环中每个字符串的大小和容量。令人惊讶的是，它加起来只是我在 ubuntu 顶部显示的内容的 1/10？可能是 top 误报还是我的编译器分配了太多空间？

最佳答案

我用一个包含 1886850 行文本、大小为 105M 的输入文件测试了您的代码。

使用您的代码，内存消耗约为 2.5G。

然后，我开始修改数据的存储方式。

第一次测试:

将 datStr 更改为:

struct datStr{
    vector<string> colNames;
    vector<string> lines;
};

这将内存消耗减少到 206M。体积缩小了 10 倍以上。很明显，使用的惩罚

vector<vector<string>> data;

比较僵硬。

第二次测试:

将 datStr 更改为:

struct datStr{
    vector<string> colNames;
    vector<string> lines;
    vector<vector<string::size_type>> indices;
};

使用 indices 跟踪 lines 中标记的开始位置。您可以使用 lines 和 indices 从每一行中提取标记。

通过此更改，内存消耗变为 543MB，但仍比原来小五倍。

第三次测试

将 dataStr 更改为:

struct datStr{
    vector<string> colNames;
    vector<string> lines;
    vector<vector<unsigned int>> indices;
};

通过此更改，内存消耗降至 455MB。如果您不希望行长或等于 UINT_MAX，这应该有效。

第四次测试

将 dataStr 更改为:

struct datStr{
    vector<string> colNames;
    vector<string> lines;
    vector<vector<unsigned short>> indices;
};

通过此更改，内存消耗降至 278MB。如果您不希望您的行长于或等于 USHRT_MAX，这应该有效。对于这种情况，indices 的开销非常小，只有 72MB。

这是我用于测试的修改后的代码。

#include<iomanip>
#include<stdio.h>
#include<stdlib.h>
#include<iostream>
#include<fstream>
#include<string.h>
#include<sstream>
#include<math.h>
#include<vector>
#include<algorithm>
#include<array>
#include<ctime>
// #include<boost/algorithm/string.hpp>
using namespace std;

struct datStr{
    vector<string> colNames;
    vector<string> lines;
    vector<vector<unsigned short>> data;
};

void split(vector<unsigned short>& rowStr, string const& line)
{
   string::size_type begin = 0;
   string::size_type end = line.size();
   string::size_type iter = begin;
   while ( iter != end)
   {
      ++iter;
      if ( line[iter] == ',' )
      {
         rowStr.push_back(static_cast<unsigned short>(begin));
         ++iter;
         begin = iter;
      }
   }
   if (begin != end )
   {
      rowStr.push_back(static_cast<unsigned short>(begin));
   }
}

datStr readBoost(string fileName)
{
   datStr ds;
   ifstream inFile;
   inFile.open(fileName);
   string line;
   getline(inFile, line);
   vector<string> colNames;
   stringstream ss(line);
   string item;
   int i = 0;
   vector<int> colTypeInt;
   while(getline(ss, item, ','))
   {
      item.erase( remove( item.begin(), item.end(), ' ' ), item.end() );
      ds.colNames.push_back(item);
   }

   int itr = 0;
   while(getline(inFile, line))
   {
      ds.lines.push_back(line);
      vector<unsigned short> rowStr;
      split(rowStr, line);
      ds.data.push_back(rowStr);
   }
}

int main(int argc, char** argv)
{
   datStr ds = readBoost(argv[1]);
   while(true)
   {
   }
}

关于c++ - 将文件读入结构时大小增加 10 倍，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23934919/

27

4

0

文章推荐： c++ - 为什么这个 "reduction factor"算法在做 "+ div/2"

文章推荐： android - Meteor Android 应用程序无法安装在 4.1.1 上

文章推荐： android - 以编程方式自定义 Android Wear watch 超时

文章推荐： android - 检测 ScrollView 的顶部

读入 CSV 文件并添加带有文件名的列
假设您有 2 个文件，如下所示。 file_1_october.csv file_2_november.csv 文件具有相同的列。所以我想在 R 中读取这两个文件，我可以使用 map 轻松完成。我还想
r - 读入 R 时如何在数值中保留零
我有一个制表符分隔的文本文件: 0730000 John 1 01 225 000 000 当我将它读入 R 时 stud_stats data.table::f
r - 读入 R 最快的文件格式是什么？
似乎最直观的是 .rdata 文件可能是 R 加载的快速文件格式，但是在扫描一些堆栈帖子时，似乎更多的注意力集中在提高 .csv 或其他格式的加载时间上。有确定的答案吗？最佳答案不是一个明确的答案
R:读入 .csv 文件并转换为多列数据框
我是 R 的新手，目前在读取 .csv 文件并将其转换为 data.frame 时遇到了很多麻烦7 列。这是我正在做的: gene_symbols_table head(gene_symbols_t
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
arrays - 读入 Julia 中的数组
我对 Julia 比较陌生，正在寻找一种有效的方法来从文本文件中读取并将每个“列”存储在数组中(我有 2 列，但通用解决方案也很棒)。例如，我想要输入 1 2 3 4 5 6
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
c: 读入 int 不完整
我的程序分配了一个 32 位 int，随后尝试使用 read(2) 从套接字将 4 个字节读入 int 有时读取不完整并返回读取 2 个字节。有什么方法可以从中恢复吗？我想我必须在 int 的中途生成
根据标题开始的位置将 CSV 读入 R
我有大量的 CSV 文件。有些标题从第一行开始，其他标题从第 3 行开始，其他的从第 7 行开始，依此类推。标题看起来都一样，它们只是从不同文件的不同行开始。有没有办法有条件地 read.csv 文
c# - 读入 CSV 文件
我写了一个小程序来从 csv 文件中读取数据: using System; using System.Collections.Generic; using System.Linq; using Sys
c++ - 读入 vector 时排序
我需要读入一个包含 10,000 个整数的列表，并将它们按升序放置在一个 vector 中。请注意，我不是在然后阅读排序，而是在同时阅读时排序。我这样做是为了学习。我意识到阅读时排序是 O(n^2)
bash - 读入 bash 脚本并将参数传递给脚本
我有一个问题。不幸的是，我没有找到任何答案。如何将参数传递给脚本，这是另一个命令的结果。例如: ls | ./myscript.sh 我想将 ls 的结果传递给 myscript。如果我执行上面的命
c++ - 读入 ascii 扩展字符
我在读取扩展 ASCII 字符并将其转换为十进制值时遇到问题。我试过这样做: unsigned char temp; while(temp = cin.get != EOF) { cout << (i
python - 读入 python 后从文本文件中删除第一行标题
我已经通过以下命令加载了文本文件。我想从 contents 中删除由 \n 分隔的第一行标题行。怎么做？ txtfile = open(filepath, "rt") contents = txtfi
python - 读入 np 数组不起作用
希望一切顺利...我正在将数据集输入到 sklearn 算法中进行分类，但找不到任何简单的数据集来开始，所以我自己制作了数据集。但有一个问题... import numpy as np import
c++ - 如何使用C++读入.csv文件并以另一种形式输出？
我有一个 .csv 文件，它有 3 行和 5 列，值为 0、1、2、3、50 或 100。我将它从 Excel 工作表保存到 .csv 文件。我正在尝试使用 C++ 读取 .csv 文件，并根据最后三
c# - 读入 HTML 文件并替换为变量
我有一个 HTML 文件，它将作为我要发送的电子邮件的模板。 html 中有一些字段是可变的。我想知道是否有一种可靠的方法可以用变量替换 HTML 文件中的占位符。我知道我可以 string.Repl
c# - 读入 JSON 数组并转换为 IEnumerable
我从未使用过 JSON 文件，但我有实现 JSON 文件的任务，我需要将其转换为 IEnumerable。当我尝试对 JSON 对象进行反序列化时，我得到一个异常，上面写着: An unhandled
C# 将 IFormFile 读入 byte[]
我正在尝试阅读 IFormFile从这样的 HTTP POST 请求中收到: public async Task UploadDocument([FromForm]DataWrapper data)
将多行文本 block 读入 R 中的单个向量
我有一个包含大量多行文本 block 的文件。我想将该文件读入一个字符向量列表——每个 block 一个。我对 scan()、read.table() 等函数的文档的阅读似乎表明一行的结尾将结束向量。

首页

博学

6Ren·AI

商城

c++ - 将文件读入结构时大小增加 10 倍