c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩)-6ren

c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩)

转载作者：太空宇宙更新时间：2023-11-04 05:11:29

27

4

我有一些 .gz 压缩文件，未压缩时大约有 5-7gig。这些是平面文件。

我写了一个程序，它接受一个未压缩的文件，并逐行读取它，效果很好。

现在我希望能够打开内存中的压缩文件并运行我的小程序。

我研究过 zlib，但找不到好的解决方案。

由于 32 位 unsigned int 的限制，使用 gzread(gzFile,void *,unsigned) 加载整个文件是不可能的。

我试过 gzgets，但与使用 gzread 读取相比，这几乎使执行时间加倍。(我在 2gig 样本上测试过。)

我还研究了“缓冲”，例如将 gzread 进程分成多个 2gig block ，使用 strcchr 找到最后一个换行符，然后设置 gzseek。但是 gzseek 将模拟整个文件解压缩。这是非常慢的。

我没有看到任何理智的解决方案来解决这个问题。我总是可以做一些检查，当前行是否真的有换行符(应该只出现在最后部分读取的行中)，然后从程序中发生这种情况的地方读取更多数据。但这可能会变得非常丑陋。

有什么建议吗？

谢谢

编辑:我不需要一次拥有整个文件，一次只需要一行，但我有一台相当大的机器，所以如果那是最简单的，我就不会有问题。

对于所有建议通过管道传输 stdin 的人，与打开文件相比，我遇到了极度缓慢的情况。这是我几个月前制作的一个小代码片段，它说明了这一点。

time ./a.out 59846/59846.txt
#       59846/59846.txt
18255221

real    0m4.321s
user    0m2.884s
sys     0m1.424s
time ./a.out <59846/59846.txt
18255221

real    1m56.544s
user    1m55.043s
sys     0m1.512s

和源代码

#include <iostream>
#include <fstream>
#define LENS 10000

int main(int argc, char **argv){
  std::istream *pFile;

  if(argc==2)//ifargument supplied
    pFile = new std::ifstream(argv[1],std::ios::in);
  else //if we want to use stdin
    pFile = &std::cin;

  char line[LENS];
  if(argc==2) //if we are using a filename, print it.
    printf("#\t%s\n",argv[1]);

  if(!pFile){
    printf("Do you have permission to open file?\n");
    return 0;
  }

  int numRow=0;
  while(!pFile->eof()) {
    numRow++;
    pFile->getline(line,LENS);
  }
  if(argc==2)
    delete pFile;
  printf("%d\n",numRow);
  return 0;
}

谢谢你的回复，我还在等金苹果

编辑2:使用 cstyle FILE 指针而不是 c++ 流要快得多。所以我认为这是要走的路。

感谢您的参与

最佳答案

gzip -cd compressed.gz |你的程序

直接从未压缩的标准输入中逐行读取它。

编辑:回应您关于性能的评论。您是说与直接读取未压缩文件相比，逐行读取 STDIN 速度较慢。区别在于缓冲方面。通常，一旦输出可用(没有，或者那里的缓冲非常小)，管道就会屈服于 STDIN。您可以从 STDIN 执行“缓冲 block 读取”并自己解析读取 block 以获得性能。

您也可以通过使用 gzread() 获得相同的结果，并可能获得更好的性能。 (读取一大块，解析 block ，读取下一个 block ，重复)

关于c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1965751/

27

4

0

文章推荐： c - 在 C 中打开文件并输出

文章推荐： c - 往返文本和返回

文章推荐： linux - 使用公共(public) SSH key 连接到本地主机失败

文章推荐： c++ - 对二进制文件进行操作时 fread/fwrite 的性能

bash - 如何解压缩文件夹中的所有 .gz 文件并将它们组合成一个新文件而不为每个 .gz 文件生成未压缩的文件
我想将所有 .gz 文件解压缩到一个文件夹中，然后将它们合并到一个新文件中。我可以在不为每个 .gz 文件生成未压缩文件的情况下执行此操作吗？非常感谢! 最佳答案你可以这样做: zcat *.gz
python - 解压缩 .gz 文件并将它们存储在 .tar.gz 存档中
我有以下问题:我正在编写一个函数来查找一堆 .gz 文件，解压缩它们，并将单独解压缩的文件存储在更大的 .tar.gz 中存档。到目前为止，我设法用下面的代码实现它，但手动计算未压缩的文件大小并设置
java - 在解压缩 .gz 文件时，解压缩并创建为本地副本的文件没有 .gz 可用的原始文件的最后修改时间
有没有办法读取 tar 文件格式的文件时间戳，以便为解压文件设置相同的时间。例如:Tar 文件中有多个文件，我想读取一个文件的最后修改时间戳。请查找下面使用的代码。我正在使用 apache co
正则表达式 egrep 找到 .gz 但不是 .tar.gz
我需要在目录中找到所有 .gz 文件但不是 .tar.gz 文件，然后发送所有。 gz 文件到 some_other_command 进行处理。到目前为止我可以做到: 找到 . -regextyp
linux - 将 .gz 文件解压到/tmp 位置并在任务完成后删除未压缩的 .gz 文件
我的逐行读取文件的脚本如下， file= "/c/User/XXX/Desktop/XYZ.log" while IFS= read -r line do if echo $line | gr
linux - 无法在终端中解压缩 .gz 文件 - file.gz : not in gzip format
我有一个 db.tar.gz 文件(大约 500mb)，我正在使用 vagrant (unix) 终端解压缩该文件。使用以下instructions在这里，我使用gunzip尝试使用下面的命令解压缩
linux - 如何将 filename.bz2.gz 文件转换为 filename.gz
我有一堆 filename.bz2.gz 的文件，我想将其转换为 filename.gz。有什么帮助吗？谢谢最佳答案有了您的文件名*.bz2.gz，我假设该文件是使用以下压缩顺序创建的: ec
linux - 将 .gz 文件拆分为多个 1GB 压缩 (.gz) 文件
我在 Linux 上有一个 250GB 的 gzip 文件，我想将它分成 250 个 1GB 的文件并即时压缩生成的部分文件(一旦生成一个文件，它就应该被压缩)。我试过用这个 - zcat file.
linux - .tar.gz 和先是 gz 然后是 tar 的区别
我制作了我的文件夹的两个压缩副本，首先使用命令 tar czf dir.tar.gz dir这给了我一个大小为 ~16kb 的存档。然后我尝试了另一种方法，首先我将所有文件压缩到目录中，然后使用 gz
java - 如何递归解压 war/ear/pack.gz/tar.gz 类型的文件
是否有一种简单明了的方法来递归解压 war/ear/pack.gz/tar.gz 类型的嵌套文件，从而创建一个目录树 - war 中的耳朵等也如此？我不在乎它是在标准 shell 中还是在 java
扩展名 tgz、tar.gz、TGZ 和 TAR.GZ 的正则表达式
我正在尝试获取一个正则表达式(在 bash 中)来识别仅具有以下扩展名的文件: tgz、tar.gz、TGZ 和 TAR.GZ。我尝试了几个但无法让它工作。我使用此正则表达式来仅选择具有这些扩展名
linux - *.1.gz 和 *.1posix.gz 文件之间的差异(UNIX 联机帮助页)
我正在开发一个有关 UNIX 联机帮助页的项目，我意识到其中一些联机帮助页以 .1.gz 的形式成对存在。和.1posix.gz . 为什么有两个关于同一个实用程序的联机帮助页(我主要对第 1 部分感
linux - 解压多个 *.tar.gz.aa *.tar.gz.ab 模式文件
我压缩了一个文件夹并在压缩时将其拆分为 200mb 的 tar.gz 文件。我怎样才能解压缩它们？有没有一种方法可以在一个命令中执行此操作，还是我必须分别执行每个命令？最佳答案您甚至不能单独进行。
css - 让 maven 提供像 css.gz 和 js.gz 这样的文件
我已经使用手动 gzip 手动压缩了我的 CSS，并且我正在尝试包含来自外部源的 css.gz。 " type="text/css" media="screen" /> 当我使用 PHP 和 Apac
linux - 如何在不提取内容并在 UBUNTU 中创建新的 .tar.gz 文件的情况下重命名 .tar.gz 文件？
我有一个命令可以从现有文件创建一个新的 .tar.gz 文件， sudo tar -zcvf Existing.tar.gz New.tar.gz 此命令将从现有的 Existing.tar.gz
python - os.path.splitext(file.txt.gz) 转化为 (file,.txt.gz)
目前，我有以/path_to_file/file.txt.gz 结尾的文件。我想拆分提取文件名(在 .txt.gz 之前)。 x = os.path.basename("/path_to_file/
linux - 仅从字符串 "89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz"中删除 ".tar.gz"
仅从字符串 89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz 中删除 .tar.gz 部分，结果应为 89dde7.rqsnhq34h.fmu8s1vn0i94hl
nginx - GeoIP.dat.gz 和 GeoLiteCity.dat.gz 不再可用？获取 404 尝试加载它
前几天开始下载了 http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz http://geoli
linux - logrotate 会删除 .gz 文件吗？也就是说，带 * 路径的 logrotate 是否会旋转现有的 .gz 文件？
//, 这个问题有点模棱两可。场景如下: 我有以下三个扩展名的日志，但我当前的规则仅适用于 *.log 文件: .1 .log .txt 另外，因为 Tomcat 正在轮换日志，所以我有以下内容:
amazon-web-services - AWS CLI - 有没有办法将 tar.gz 从 S3 提取到主目录而不存储 tar.gz？
详细说明，我的 AWS S3 上有一个 tar.gz 文件，我们将其命名为 example.tar.gz。所以，我想要做的是将 example.tar.gz 的提取内容下载到 /var/home/

首页

博学

6Ren·AI

商城

c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩)