gpt4 book ai didi

php - PHP 大文件的分段 bzcompression

转载 作者:可可西里 更新时间:2023-11-01 13:25:57 28 4
gpt4 key购买 nike

由于其在 bzcompress 中的实现,在 PHP 中创建 bzip2 归档数据非常容易.在我目前的应用程序中,我完全不能简单地将输入文件读入一个字符串,然后调用 bzcompressbzwrite。 PHP 文档没有明确说明使用相对少量的数据连续调用 bzwrite 是否会产生与一次压缩整个文件相同的结果。我的意思是

$data = file_get_contents('/path/to/bigfile');
$cdata = bzcompress($data);

我尝试使用下面显示的例程进行零碎的 bzcompression

function makeBZFile($infile,$outfile)
{
$fp = fopen($infile,'r');
$bz = bzopen($outfile,'w');
while (!feof($fp))
{
$bytes = fread($fp,10240);
bzwrite($bz,$bytes);
}
bzclose($bz);
fclose($fp);
}

function unmakeBZFile($infile,$outfile)
{
$bz = bzopen($infile,'r');
while (!feof($bz))
{
$str = bzread($bz,10240);
file_put_contents($outfile,$str,FILE_APPEND);
}
}

set_time_limit(1200);
makeBZFile('/tmp/test.rnd','/tmp/test.bz');
unmakeBZFile('/tmp/test.bz','/tmp/btest.rnd');

为了测试这段代码我做了两件事

  • 我使用 makeBZFileunmakeBZFile 压缩然后解压缩 SQLite 数据库 - 这是我最终需要做的。
  • 我创建了一个 50Mb 的随机数据 dd if=/dev/urandom of='/tmp.test.rnd bs=50M count=1

在这两种情况下,我都执行了一个diff original.file decompressed.file 并发现两者是相同的。

一切都很好,但我不清楚为什么会这样。 PHP 文档声明 bzread(bzpointer,length) 读取最大 length 字节的 UNCOMPRESSED 数据。如果我下面的代码正在运行,那是因为我将 bzwitebzread 的大小强制设置为 10240 字节。

我看不到的是 bzread 如何知道如何获取 lenth 字节的 UNCOMPRESSED 数据。我检查了 format of a bzip2 file .我看不到那里有任何东西可以帮助轻松确定 .bz 文件 block 的未压缩数据长度。

我怀疑我对它的工作原理的理解存在差距 - 或者我下面的代码似乎执行了正确的分段压缩这一事实纯属偶然。

我非常感谢这里的一些解释。

最佳答案

要了解解压缩如何获得字节长度,您必须首先了解压缩。看来你对压缩算法一无所知。

BZIP2

BZIP2 的关键算法是 Burrows Wheeler 变换 (BWT),它将原始数据转换为适合后续编码的形式。当前版本应用了 Huffman 代码。压缩算法处理完全独立于每个 block 的 block 中的数据。 block 大小可以设置在 1-9(100,000 - 900,000 字节)的范围内。

BZIP2数据结构

压缩字符串的前两个字符以字母“BZ”开头,之后是算法使用的 1 个字节。此后立即识别 block 大小,对整个文件有效(h1h2h3h9).该参数表示 block 大小,单位为 1-9(100,000 - 900,000 字节)。

实际原始数据根据所选大小存储在 block 中,并将使用 CRC32 校验和单独保护。另外一个 48 位标识符引入每个 block 。这种 block 结构允许部分重建损坏的文件。

GZIP/BZIP

Gzip 和 bzip2 在功能上是等价的。 GZIP 的一个优点是它可以压缩一个流,一个您无法回头看的序列。这使它成为 http 流的官方压缩器。 GZZIP DEFLATE RFC 1951 Compressed Data Format Specification 和 GUNZIP RFC 1952 File Format Specification 是已发布的文档。

GIP解释

GZIP Explained

关于php - PHP 大文件的分段 bzcompression,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34198667/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com