gpt4 book ai didi

c++ - 在 Vector c++ 中加载大数据

转载 作者:太空宇宙 更新时间:2023-11-04 11:23:19 25 4
gpt4 key购买 nike

我有大量制表符分隔的平面文件表。我想更快地将所有数据加载到 2D vector 容器中。我在下面给出了我的代码。我用 Ofast、Os 和 O2 Complexities 检查了我的代码。但是加载 100,000 条 4 列的记录需要将近 20 秒。但我想在 1 秒内加载 500,000 条记录。我怎样才能实现它。 ?

typedef vector <string> record_t;
typedef vector <record_t> table_t;

fstream& operator >> ( fstream& ins, record_t& r_record )
{

r_record.clear();

string s_line;
getline( ins, s_line );

stringstream ss( s_line );
string s_field;
while (getline( ss, s_field, '\t' ))
{

r_record.push_back( s_field );
}


return ins;
}


fstream& operator >> ( fstream& ins, table_t& t_data )
{

t_data.clear();


record_t r_record;
while (ins >> r_record)
{
t_data.push_back( r_record );
}


return ins;
}

fstream fs("somesamplefile.txt",ios::in);
table_t table;
fs>>table;

时差是:

Os      22.860000 Seconds
Ofast 21.320000 Seconds
O2 22.660000 Seconds

最佳答案

如果您的平台允许 - 它可能允许 - 尝试将整个文件读入单个内存缓冲区,然后从缓冲区读入您的 vector 。

如果您的平台有内存映射——Linux、BSD、Mac OS X 和 Windows 都有——与使用文件 I/O 系统调用相比,它更快,并且使用更少的内存来内存映射文件。

无论你是使用文件 I/O(比如 UNIX 的 read(2) 系统调用),还是映射(*NIX 上的 mmap(2),我不记得 Windows 的等效项叫什么),你都会避免大量的系统调用。我希望 getline 自己做一些缓冲,但缓冲不会那么大。

关于c++ - 在 Vector c++ 中加载大数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27540093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com