- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个大文件(5 亿条记录)。该文件是两列(制表符分隔)如下:
1 4590
3 1390
4 4590
5 4285
7 8902
8 9000
...
第一列中的所有值都按数字顺序排列(但有间隙,例如:1,然后是 3,然后是 4...)。
我想对该文件进行索引,以便能够根据第 1 列的值(我将其称为键)访问第 2 列上的值
例如,如果我提交 8,它应该返回 9000。
我已经开始创建如下索引:
// Record each entry into a structure
struct Record{
int gi; //first column
int taxa; //second column
};
Record buffer;
ofstream BinaryFile("large_file_indexed.bin", ios::binary);
ifstream inputFile("infile.dat");
//Write to binary file
while( inputFile.good() ){
inputFile >> buffer.gi >> buffer.taxa;
BinaryFile.write( (char *) &buffer, sizeof(Record) );
}
BinaryFile.close();
好的,我上面所做的只是为条目创建一个二进制索引文件并将其保存到一个二进制文件中。这按预期工作。
现在问题来了,因为我不是专家,所以我很感激你的建议。思路是读取二进制文件,得到一条特定的记录
//Read binary file
ifstream ReadBinary("large_file_indexed.bin, ios::binary );
int idx = 8 ; // Which key do we search for?
while(!ReadBinary.eof())
{
ReadBinary.read( (char *) &buffer, sizeof(Record));
if(idx == buffer.gi) // If we find key return corresponding value
{
cout << "Found key " << buffer.gi << " Taxa:" << buffer.taxa << endl;
break;
}
}
这将返回预期值。由于我们要求与键 8 对应的值,因此它返回 9000。
问题是获取值的时间仍然太长,我想知道如何才能更快。如果我使用 seekg 并可以获得特定索引,但我不知道哪个索引(位置)对应于我们想要的键。所以换句话说我可以直接跳转到关键所在的位置并获取相应的值。我对如何获取特定键的位置并跳转到二进制文件中的相应位置感到困惑。也许我应该以不同的方式索引我的输入文件,或者我遗漏了什么?
感谢您的评论。
最佳答案
如果您不能使用数据库或 B 树库,并且不想投资开发另一个 B 树库,您可以考虑以下两种方法之一。
两者都假定二进制索引文件已排序,并利用固定大小的记录。
1.简单的启发式方法
如果没有间隙,要找到第 n 条记录(从 1 开始编号),您可以这样做:
if (ReadBinary.seekg(sizeof(Record)*(n-1))
&& ReadBinary.read( (char*)&buffer, sizeof(Record))) {
// process record
}
else {
// record not found (certainly beyond eof)
}
但是你可以有差距。这意味着,如果没有重复项,元素 n 将位于此位置或之前。因此,只要有必要就阅读和倒带:
if (! ReadBinary.seekg(sizeof(Record)*(n-1))) { // try to position
ReadBinary.clear(); // if couldn't position
ReadBinary.seekg(-sizeof(Record), ios_base::end); // go to last record
}
while (ReadBinary.read( (char*)&buffer, sizeof(Record)) && buffer.gi>n ) {
ReadBinary.seekg (-2*sizeof(Record), ios_base::cur);
}
if (ReadBinary && buffer.gi==n) {
// record found
}
else {
// record not found
}
2.二分法
当然,如果你有很多差距,这种启发式方法很快就会变得太慢,因为搜索的数量会增加。
因此您可以选择 dichotomic search (又名 binary search ):与 seekg()
转到文件末尾并使用 tellg()
知道文件的大小,您可以将其转换为记录数。
将数字一分为二,放在中间的记录上,读取它,看搜索到的数字是否小于或大于读取的数字,然后重新开始搜索,直到找到正确的位置.您将使用相同的原则在数组中进行搜索。
这是非常有效的,因为您最多只需要 log(n)/log(2) 次读取就可以找到任何数字。因此,对于 500 000 000 个数字中的任何一个,您最多需要读取 29 次!
3.结论
当然还有其他可行的方法。但最终,这已经相当不错了,即使它会被任何数据库或精心制作的 b-tree 超越。库,因为 B 树通过将节点巧妙地重新组合成 block 来减少磁盘磁头移动,这些 block 被优化为以最小的磁盘开销立即读取。这减少了对 log(n)/log(b) 的磁盘访问次数,其中 b 是 block 中的节点数。例如,如果 b=10,则搜索 500 000 000 个元素最多需要从磁盘读取 9 次。
关于c++ - 索引大型 txt 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35998683/
我知道我要求太多,但也许你也可以帮助解决这个问题。 a.txt 包含单词,b.txt 包含字符串。 我想知道 b.txt 中有多少个字符串以 a.txt 中的单词结尾 例子:一个.txt apple
这个问题在这里已经有了答案: erge text files ordered by numerical filenames in Bash (3 个答案) 关闭 4 年前。 我有一个文件夹,其中包含
我在一个目录中有几个平面文件 (.txt)。所有这些文件的格式都是 *.txt.txt,所以我想将其重命名为 *.txt?有什么简单的方法可以一起重命名? 当我尝试 ren *.txt.txt *.t
这个问题在这里已经有了答案: How can I use a file in a command and redirect output to the same file without trunc
您是否有任何理由应该或不应该允许访问 javascript 或 css 文件?特别是常见的文件,如 jquery。 最佳答案 人们普遍认为,搜索引擎每天为给定站点分配一定数量的带宽或 URL。因此,一
Closed. This question is off-topic。它当前不接受答案。 想要改善这个问题吗? Update the question,所以它是用于堆栈溢出的on-topic。 已关闭
这是相同的代码。我面临的问题是,我无法在任何文件上写入任何内容。请帮忙解决这个问题 #include #include int main() { FILE *fe; FILE *fo;
我想要特定于域的 robots.txt,到目前为止这有效: RewriteRule ^robots\.txt$ robots/%{HTTP_HOST}.txt [L] 但我希望有一个后备方案,因此如果
我正在调试一些构建成功运行的 SQL 命令的代码。 然而,在查询结束时,查询结果似乎被写入了一个文本文件。 完整的查询如下 echo SELECT DATE,DATETABLE,DATE,APPDAT
这个问题已经有答案了: difference between grep Vs cat and grep (5 个回答) 已关闭 8 年前。 我看到一个例子,其中有人这样做: cat source.tx
我想将表中的数据从以 csv 格式存储的文本文件插入到 sql server 表中。为此,我正在使用批量插入语句。现在我需要在“From”子句中指定文件名。我不想在那里使用网络位置或本地位置。我想将我
假设我有一个测试文件夹 (test.domain.com) 并且我不希望搜索引擎在其中抓取,我是否需要在测试文件夹中有一个 robots.txt 或者我可以只放置一个 robots.txt在根目录中,
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
这个问题在这里已经有了答案: order of directives in robots.txt, do they overwrite each other or complement each ot
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
已关闭。这个问题是 not about programming or software development 。目前不接受答案。 这个问题似乎不是关于 a specific programming
在过去的几年中,当我引用“名字”字段的文本框控件时,我一直使用 FirstNameTxt 命名约定。但是,我注意到大多数其他开发人员倾向于使用命名约定 txtFirstName 哪个是最好的约定?为什
我只想允许目录 /minsc 中的一个文件,但我想禁止该目录的其余部分。 现在 robots.txt 中是这样的: User-agent: * Crawl-delay: 10 # Directorie
我正在编写一个将 youtube.com 映射到另一个域的代理服务器(因此用户可以轻松地从德国等国家/地区访问 youtube,而无需审查搜索结果和视频)。 不幸的是,我的 robots.txt 中存
我没有编程技能,但有一项非常具体的任务:我必须将一个庞大的文本文件拆分成多个,并在特定的文本标记 (@) 处拆分它们。我决定尝试使用 Powershell 脚本来完成此任务。 到目前为止,这就是我想出
我是一名优秀的程序员,十分优秀!