python - 使用 python 解压缩 .gz 文件的一部分-6ren

python - 使用 python 解压缩 .gz 文件的一部分

转载作者：太空狗更新时间：2023-10-29 20:32:39

25

4

所以问题来了。我有大约 60KB 大小的 sample.gz 文件。我想解压这个文件的前 2000 个字节。我遇到了 CRC 校验失败错误，我猜是因为 gzip CRC 字段出现在文件末尾，它需要整个 gzip 文件才能解压缩。有办法解决这个问题吗？我不关心 CRC 检查。即使我因为错误的 CRC 而无法解压，也没关系。有没有办法解决这个问题并解压缩部分 .gz 文件？

我目前的代码是

import gzip
import time
import StringIO

file = open('sample.gz', 'rb')
mybuf = MyBuffer(file)
mybuf = StringIO.StringIO(file.read(2000))
f = gzip.GzipFile(fileobj=mybuf)
data = f.read()
print data

遇到的错误是

File "gunzip.py", line 27, in ?
    data = f.read()
File "/usr/local/lib/python2.4/gzip.py", line 218, in read
  self._read(readsize)
File "/usr/local/lib/python2.4/gzip.py", line 273, in _read
  self._read_eof()
File "/usr/local/lib/python2.4/gzip.py", line 309, in _read_eof
  raise IOError, "CRC check failed"
IOError: CRC check failed

还有什么方法可以使用 zlib 模块来执行此操作并忽略 gzip header 吗？

最佳答案

gzip 模块的问题不是它不能解压缩部分文件，错误仅在最后尝试验证解压缩内容的校验和时发生。 (原始校验和存储在压缩文件的末尾，因此验证永远不会对部分文件起作用。)

关键是让 gzip 跳过验证。 answer by caesar0301通过修改 gzip 源代码来做到这一点，但没有必要走那么远，简单的猴子补丁就可以了。我写了这个上下文管理器来临时替换 gzip.GzipFile._read_eof，同时解压部分文件:

import contextlib

@contextlib.contextmanager
def patch_gzip_for_partial():
    """
    Context manager that replaces gzip.GzipFile._read_eof with a no-op.

    This is useful when decompressing partial files, something that won't
    work if GzipFile does it's checksum comparison.

    """
    _read_eof = gzip.GzipFile._read_eof
    gzip.GzipFile._read_eof = lambda *args, **kwargs: None
    yield
    gzip.GzipFile._read_eof = _read_eof

用法示例:

from cStringIO import StringIO

with patch_gzip_for_partial():
    decompressed = gzip.GzipFile(StringIO(compressed)).read()

关于python - 使用 python 解压缩 .gz 文件的一部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1732709/

25

4

0

文章推荐：通过标准输入和标准输出的 C# 双向 IPC

文章推荐： c++ - 使用基类的所有重载

文章推荐： c++ - 多个输出运算符？

文章推荐： Python 链表 O(1) 插入/删除

math - 旋转椭圆的 y 解
我希望通过扫描线为 x 的每个值找到 y 的值来绘制椭圆。对于普通椭圆，公式很容易找到:y = Sqrt[b^2 - (b^2 x^2)/a^2] 但是当椭圆的轴旋转时，我一直无法弄清楚如何计算 y
algorithm - 如何在欠定的线性方程组中找到 "partial"解？
假设我有这个矩阵: 1 1 1 | 1 0 0 1 | 1 这个系统显然有无限的解决方案。 x1 = -x2 x3 = 1 x1 依赖于 x2，x2 是免费的，但我感兴趣的是 x3。是否有一种算法可以
neural-network - 如何使用神经网络解决 "soft"解？
我正在考虑使用神经网络在我正在构建的太空射击游戏中为我的敌人提供动力，我想知道；当网络没有一个明确的好的输出集时，你如何训练神经网络？最佳答案我目前正在研究神经网络，如果没有明确定义的输入和输出编
embedded - 对于这种情况，什么是好的(解)压缩例程
我需要一个针对受限资源环境(例如具有以下特征的二进制(十六进制数据)嵌入式系统)进行优化的快速解压缩例程: 数据面向 8 位(字节)(数据总线为 8 位宽)。字节值的范围并不统一为 0 - 0xFF
java - (解)压缩 base64 字符串
PHP代码: $txt="John has cat and dog."; //plain text $txt=base64_encode($txt); //base64 encode $txt=gzd
c - 找到方程的 (x,y) 解
程序从用户那里接收到一个正数k，并且应该检查方程有多少解 3*x+5*y=k 在许多解决方案的情况下，该函数采用所有解决方案中 |x-y| 的较大绝对值。如果只有一种解决方案，它会打印出来。例如: 如
python - odeint 的非线性 ODE 解
我必须求解以下微分方程: 或如果没有 F_1 术语，代码就很简单。但我无法用包含 F_1 项来解决它，尽管我知道解决方案应该看起来像阻尼谐振。 from scipy.integrate import
algorithm - 找到前缀和变化的 O(n) 解
我知道这个问题是前缀和的变体，我只是在设置它时遇到了一些困难。最佳答案定义: P[i] = A[i+1] + A[i+2] + ... + A[n] Q[i] = A[1] + ... + A[i
java - 使用 NIO(解)压缩文件
在许多在线示例中，文件在 Java 中使用编码缓冲区进行(解)压缩。然而，对于 NIO，无需选择一个好的缓冲区大小。我找到了文件和套接字的示例，但是是否有用于压缩输入的 NIO channel (例如
python - 优化三对角系数矩阵的 A*x = B 解
我有一个形式为 A*x = B 的方程组，其中 [A] 是一个三对角系数矩阵。使用 Numpy 求解器 numpy.linalg.solve 我可以求解 x 的方程组。请参阅下面的示例，了解我如何开
java - 最长递增子序列的潜在 O(n) 解
我试图回答这个问题，只使用递归(动态编程) http://en.wikipedia.org/wiki/Longest_increasing_subsequence 从这篇文章中，我意识到最有效的现有解
powershell - Add-Type -ReferencedAssemblies失败，无法加载或找到程序集。解
解决此问题的方法是，按照我发帖的其中一项建议，将DLL添加到GAC中。正如我在我的一份答复中所指出的那样，在需要运行此过程的环境中，可伸缩性将不可用。因此，不能选择简单的解决方案。为了解决这个问题，我
audio - 是否有 AAC-LC(解)压缩的规范？
是否有专门描述 AAC-LC 标准的规范，以及实现编解码器的现实目标，而不是通用编解码器，而是针对特定 AAC-LC 格式，具有预定义的 channel 数和采样率？是否有一些针对 AAC-LC 的
vhdl - 使用通用来确定 VHDL 中的(解)复用器大小？
我想使用通用的“p”来定义多路复用器将有多少输出。输入和所有输出均为 1 位。输出、控制和输入可以很简单，例如: signal control : std_logic_vector(log 2 p
javascript - 定位转换后的 div(三 Angular 解)
我正在尝试在 javascript 中使用一些三 Angular 函数来定位一些菱形 div，但似乎我的逻辑在某处失败了。你可以看到我尝试了这个公式:pos + trig * dimension。我
algorithm - 缺少整数变化 - 需要 O(n) 解
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
java - 该对象与 JSON/XML 之间的(解)编码可能会破坏到什么程度
我一直在考虑这两个 JSON 库: 谷歌 Gson JSON.Simple XStream Google Gson 非常棒，它可以序列化具有无参数构造函数的类对象。 JSON.Simple 非常简洁，
gekko - 使用 Gekko 和 Python 拟合数据的数值 ODE 解
使用 Gekko 拟合数据的数值 ODE 解。嗨，大家好! 我想知道是否可以使用 GEKKO 拟合 ODE 的系数。我尝试复制 example given here 失败. 这是我想出的(但有缺陷
java - US-ASCII 字符串(解)压缩到/从字节数组(7 位/字符)
众所周知，ASCII使用7位来编码字符，所以用来表示文本的字节数总是小于文本字母的长度例如: StringBuilder text = new StringBuilder(); In
python - 如何获得与 Matlab 的 'special' (mldivide) 运算符使用 numpy/scipy 返回的欠定线性系统相同的 `A\b` 解？
我找到了一个 link其中显示了一个示例，当线性方程组有无限多个解时，Matlab mldivide 运算符 (\) 给出“特殊”解。例如: A = [1 2 0; 0 4 3]; b = [8;

首页

博学

6Ren·AI

商城

python - 使用 python 解压缩 .gz 文件的一部分