- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一些 .gz 压缩文件,未压缩时大约有 5-7gig。这些是平面文件。
我写了一个程序,它接受一个未压缩的文件,并逐行读取它,效果很好。
现在我希望能够打开内存中的压缩文件并运行我的小程序。
我研究过 zlib,但找不到好的解决方案。
由于 32 位 unsigned int 的限制,使用 gzread(gzFile,void *,unsigned) 加载整个文件是不可能的。
我试过 gzgets,但与使用 gzread 读取相比,这几乎使执行时间加倍。(我在 2gig 样本上测试过。)
我还研究了“缓冲”,例如将 gzread 进程分成多个 2gig block ,使用 strcchr 找到最后一个换行符,然后设置 gzseek。但是 gzseek 将模拟整个文件解压缩。这是非常慢的。
我没有看到任何理智的解决方案来解决这个问题。我总是可以做一些检查,当前行是否真的有换行符(应该只出现在最后部分读取的行中),然后从程序中发生这种情况的地方读取更多数据。但这可能会变得非常丑陋。
有什么建议吗?
谢谢
编辑:我不需要一次拥有整个文件,一次只需要一行,但我有一台相当大的机器,所以如果那是最简单的,我就不会有问题。
对于所有建议通过管道传输 stdin 的人,与打开文件相比,我遇到了极度缓慢的情况。这是我几个月前制作的一个小代码片段,它说明了这一点。
time ./a.out 59846/59846.txt
# 59846/59846.txt
18255221
real 0m4.321s
user 0m2.884s
sys 0m1.424s
time ./a.out <59846/59846.txt
18255221
real 1m56.544s
user 1m55.043s
sys 0m1.512s
和源代码
#include <iostream>
#include <fstream>
#define LENS 10000
int main(int argc, char **argv){
std::istream *pFile;
if(argc==2)//ifargument supplied
pFile = new std::ifstream(argv[1],std::ios::in);
else //if we want to use stdin
pFile = &std::cin;
char line[LENS];
if(argc==2) //if we are using a filename, print it.
printf("#\t%s\n",argv[1]);
if(!pFile){
printf("Do you have permission to open file?\n");
return 0;
}
int numRow=0;
while(!pFile->eof()) {
numRow++;
pFile->getline(line,LENS);
}
if(argc==2)
delete pFile;
printf("%d\n",numRow);
return 0;
}
谢谢你的回复,我还在等金苹果
编辑2:使用 cstyle FILE 指针而不是 c++ 流要快得多。所以我认为这是要走的路。
感谢您的参与
最佳答案
gzip -cd compressed.gz |你的程序
直接从未压缩的标准输入中逐行读取它。
编辑:回应您关于性能的评论。您是说与直接读取未压缩文件相比,逐行读取 STDIN 速度较慢。区别在于缓冲方面。通常,一旦输出可用(没有,或者那里的缓冲非常小),管道就会屈服于 STDIN。您可以从 STDIN 执行“缓冲 block 读取”并自己解析读取 block 以获得性能。
您也可以通过使用 gzread()
获得相同的结果,并可能获得更好的性能。 (读取一大块,解析 block ,读取下一个 block ,重复)
关于c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1965751/
我想将所有 .gz 文件解压缩到一个文件夹中,然后将它们合并到一个新文件中。我可以在不为每个 .gz 文件生成未压缩文件的情况下执行此操作吗? 非常感谢! 最佳答案 你可以这样做: zcat *.gz
我有以下问题:我正在编写一个函数来查找一堆 .gz 文件,解压缩它们,并将单独解压缩的文件存储在更大的 .tar.gz 中 存档。到目前为止,我设法用下面的代码实现它,但手动计算未压缩的文件大小并设置
有没有办法读取 tar 文件格式的文件时间戳,以便为解压文件设置相同的时间。 例如:Tar 文件中有多个文件,我想读取一个文件的最后修改时间戳。 请查找下面使用的代码。 我正在使用 apache co
我需要在目录中找到所有 .gz 文件但不是 .tar.gz 文件,然后发送所有 。 gz 文件到 some_other_command 进行处理。 到目前为止我可以做到: 找到 . -regextyp
我的逐行读取文件的脚本如下, file= "/c/User/XXX/Desktop/XYZ.log" while IFS= read -r line do if echo $line | gr
我有一个 db.tar.gz 文件(大约 500mb),我正在使用 vagrant (unix) 终端解压缩该文件。 使用以下instructions在这里,我使用gunzip尝试使用下面的命令解压缩
我有一堆 filename.bz2.gz 的文件,我想将其转换为 filename.gz。 有什么帮助吗? 谢谢 最佳答案 有了您的文件名*.bz2.gz,我假设该文件是使用以下压缩顺序创建的: ec
我在 Linux 上有一个 250GB 的 gzip 文件,我想将它分成 250 个 1GB 的文件并即时压缩生成的部分文件(一旦生成一个文件,它就应该被压缩)。我试过用这个 - zcat file.
我制作了我的文件夹的两个压缩副本,首先使用命令 tar czf dir.tar.gz dir这给了我一个大小为 ~16kb 的存档。然后我尝试了另一种方法,首先我将所有文件压缩到目录中,然后使用 gz
是否有一种简单明了的方法来递归解压 war/ear/pack.gz/tar.gz 类型的嵌套文件,从而创建一个目录树 - war 中的耳朵等也如此? 我不在乎它是在标准 shell 中还是在 java
我正在尝试获取一个正则表达式(在 bash 中)来识别仅具有以下扩展名的文件: tgz、tar.gz、TGZ 和 TAR.GZ。 我尝试了几个但无法让它工作。 我使用此正则表达式来仅选择具有这些扩展名
我正在开发一个有关 UNIX 联机帮助页的项目,我意识到其中一些联机帮助页以 .1.gz 的形式成对存在。和.1posix.gz . 为什么有两个关于同一个实用程序的联机帮助页(我主要对第 1 部分感
我压缩了一个文件夹并在压缩时将其拆分为 200mb 的 tar.gz 文件。我怎样才能解压缩它们?有没有一种方法可以在一个命令中执行此操作,还是我必须分别执行每个命令? 最佳答案 您甚至不能单独进行。
我已经使用手动 gzip 手动压缩了我的 CSS,并且我正在尝试包含来自外部源的 css.gz。 " type="text/css" media="screen" /> 当我使用 PHP 和 Apac
我有一个命令可以从现有文件创建一个新的 .tar.gz 文件, sudo tar -zcvf Existing.tar.gz New.tar.gz 此命令将从现有的 Existing.tar.gz
目前,我有以/path_to_file/file.txt.gz 结尾的文件。 我想拆分提取文件名(在 .txt.gz 之前)。 x = os.path.basename("/path_to_file/
仅从字符串 89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz 中删除 .tar.gz 部分,结果应为 89dde7.rqsnhq34h.fmu8s1vn0i94hl
前几天开始下载了 http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz http://geoli
//, 这个问题有点模棱两可。 场景如下: 我有以下三个扩展名的日志,但我当前的规则仅适用于 *.log 文件: .1 .log .txt 另外,因为 Tomcat 正在轮换日志,所以我有以下内容:
详细说明, 我的 AWS S3 上有一个 tar.gz 文件,我们将其命名为 example.tar.gz。 所以,我想要做的是将 example.tar.gz 的提取内容下载到 /var/home/
我是一名优秀的程序员,十分优秀!