python - 如何使用python逐 block 解压缩多个文件.gz-6ren

python - 如何使用python逐 block 解压缩多个文件.gz

转载作者：行者123 更新时间：2023-12-01 03:14:22

24

4

我试图在下载过程中解压缩一个非常大的.gz文件(commoncrawl web extract)，但是zlib在第一个文件之后停止(该文件似乎是许多串联的gz文件)。

import requests,json,zlib
fn="crawl-data/CC-MAIN-2017-04/segments/1484560279933.49/warc/CC-MAIN-20170116095119-00381-ip-10-171-10-70.ec2.internal.warc.gz"
fn="https://commoncrawl.s3.amazonaws.com/"+fn
r = requests.get(fn, stream=True)
d = zlib.decompressobj(zlib.MAX_WBITS | 16)
for chunk in r.iter_content(chunk_size=2048):
    if chunk:
        outstr = d.decompress(chunk)
        print(len(chunk),chunk[:10].hex(),len(outstr),len(d.unused_data))

所有 block 都转到“unused_data”并且不解压缩，只有第一个 block 。

通过管道传输到 zcat 时效果非常好:

curl https://commoncrawl.s3... | zcat | ....

最佳答案

你几乎已经给出了你自己问题的答案。您正在处理 gzip 流的串联(它本身就是一个有效的 gzip 流)，因此当您从解压缩对象中获取 eof 时，您需要启动一个新的 decompressobj 对于每个数据，使用您在上一个数据中记下的 unused_data 开始下一个数据。

关于python - 如何使用python逐 block 解压缩多个文件.gz，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42602122/

24

4

0

文章推荐： python - hashlib 找不到ripemd160

文章推荐： Jquery隐藏一个表的行但不隐藏另一个表的行

文章推荐： r - 使用 googleway : incoherent results 对地址进行地理编码

bash - 如何解压缩文件夹中的所有 .gz 文件并将它们组合成一个新文件而不为每个 .gz 文件生成未压缩的文件
我想将所有 .gz 文件解压缩到一个文件夹中，然后将它们合并到一个新文件中。我可以在不为每个 .gz 文件生成未压缩文件的情况下执行此操作吗？非常感谢! 最佳答案你可以这样做: zcat *.gz
python - 解压缩 .gz 文件并将它们存储在 .tar.gz 存档中
我有以下问题:我正在编写一个函数来查找一堆 .gz 文件，解压缩它们，并将单独解压缩的文件存储在更大的 .tar.gz 中存档。到目前为止，我设法用下面的代码实现它，但手动计算未压缩的文件大小并设置
java - 在解压缩 .gz 文件时，解压缩并创建为本地副本的文件没有 .gz 可用的原始文件的最后修改时间
有没有办法读取 tar 文件格式的文件时间戳，以便为解压文件设置相同的时间。例如:Tar 文件中有多个文件，我想读取一个文件的最后修改时间戳。请查找下面使用的代码。我正在使用 apache co
正则表达式 egrep 找到 .gz 但不是 .tar.gz
我需要在目录中找到所有 .gz 文件但不是 .tar.gz 文件，然后发送所有。 gz 文件到 some_other_command 进行处理。到目前为止我可以做到: 找到 . -regextyp
linux - 将 .gz 文件解压到/tmp 位置并在任务完成后删除未压缩的 .gz 文件
我的逐行读取文件的脚本如下， file= "/c/User/XXX/Desktop/XYZ.log" while IFS= read -r line do if echo $line | gr
linux - 无法在终端中解压缩 .gz 文件 - file.gz : not in gzip format
我有一个 db.tar.gz 文件(大约 500mb)，我正在使用 vagrant (unix) 终端解压缩该文件。使用以下instructions在这里，我使用gunzip尝试使用下面的命令解压缩
linux - 如何将 filename.bz2.gz 文件转换为 filename.gz
我有一堆 filename.bz2.gz 的文件，我想将其转换为 filename.gz。有什么帮助吗？谢谢最佳答案有了您的文件名*.bz2.gz，我假设该文件是使用以下压缩顺序创建的: ec
linux - 将 .gz 文件拆分为多个 1GB 压缩 (.gz) 文件
我在 Linux 上有一个 250GB 的 gzip 文件，我想将它分成 250 个 1GB 的文件并即时压缩生成的部分文件(一旦生成一个文件，它就应该被压缩)。我试过用这个 - zcat file.
linux - .tar.gz 和先是 gz 然后是 tar 的区别
我制作了我的文件夹的两个压缩副本，首先使用命令 tar czf dir.tar.gz dir这给了我一个大小为 ~16kb 的存档。然后我尝试了另一种方法，首先我将所有文件压缩到目录中，然后使用 gz
java - 如何递归解压 war/ear/pack.gz/tar.gz 类型的文件
是否有一种简单明了的方法来递归解压 war/ear/pack.gz/tar.gz 类型的嵌套文件，从而创建一个目录树 - war 中的耳朵等也如此？我不在乎它是在标准 shell 中还是在 java
扩展名 tgz、tar.gz、TGZ 和 TAR.GZ 的正则表达式
我正在尝试获取一个正则表达式(在 bash 中)来识别仅具有以下扩展名的文件: tgz、tar.gz、TGZ 和 TAR.GZ。我尝试了几个但无法让它工作。我使用此正则表达式来仅选择具有这些扩展名
linux - *.1.gz 和 *.1posix.gz 文件之间的差异(UNIX 联机帮助页)
我正在开发一个有关 UNIX 联机帮助页的项目，我意识到其中一些联机帮助页以 .1.gz 的形式成对存在。和.1posix.gz . 为什么有两个关于同一个实用程序的联机帮助页(我主要对第 1 部分感
linux - 解压多个 *.tar.gz.aa *.tar.gz.ab 模式文件
我压缩了一个文件夹并在压缩时将其拆分为 200mb 的 tar.gz 文件。我怎样才能解压缩它们？有没有一种方法可以在一个命令中执行此操作，还是我必须分别执行每个命令？最佳答案您甚至不能单独进行。
css - 让 maven 提供像 css.gz 和 js.gz 这样的文件
我已经使用手动 gzip 手动压缩了我的 CSS，并且我正在尝试包含来自外部源的 css.gz。 " type="text/css" media="screen" /> 当我使用 PHP 和 Apac
linux - 如何在不提取内容并在 UBUNTU 中创建新的 .tar.gz 文件的情况下重命名 .tar.gz 文件？
我有一个命令可以从现有文件创建一个新的 .tar.gz 文件， sudo tar -zcvf Existing.tar.gz New.tar.gz 此命令将从现有的 Existing.tar.gz
python - os.path.splitext(file.txt.gz) 转化为 (file,.txt.gz)
目前，我有以/path_to_file/file.txt.gz 结尾的文件。我想拆分提取文件名(在 .txt.gz 之前)。 x = os.path.basename("/path_to_file/
linux - 仅从字符串 "89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz"中删除 ".tar.gz"
仅从字符串 89dde7.rqsnhq34h.fmu8s1vn0i94hl.tgz.tar.gz 中删除 .tar.gz 部分，结果应为 89dde7.rqsnhq34h.fmu8s1vn0i94hl
nginx - GeoIP.dat.gz 和 GeoLiteCity.dat.gz 不再可用？获取 404 尝试加载它
前几天开始下载了 http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz http://geoli
linux - logrotate 会删除 .gz 文件吗？也就是说，带 * 路径的 logrotate 是否会旋转现有的 .gz 文件？
//, 这个问题有点模棱两可。场景如下: 我有以下三个扩展名的日志，但我当前的规则仅适用于 *.log 文件: .1 .log .txt 另外，因为 Tomcat 正在轮换日志，所以我有以下内容:
amazon-web-services - AWS CLI - 有没有办法将 tar.gz 从 S3 提取到主目录而不存储 tar.gz？
详细说明，我的 AWS S3 上有一个 tar.gz 文件，我们将其命名为 example.tar.gz。所以，我想要做的是将 example.tar.gz 的提取内容下载到 /var/home/

首页

博学

6Ren·AI

商城

python - 如何使用python逐 block 解压缩多个文件.gz