block - Bzip2 block 头 : 1AY&SY-6ren

block - Bzip2 block 头 : 1AY&SY

转载作者：行者123 更新时间：2023-12-02 01:58:55

26

4

这是关于bzip2的问题archive format .任何 Bzip2 存档都由文件头、一个或多个块和尾结构组成。所有块都应以“1AY&SY”开头，Pi 编号的 6 字节 BCD 编码数字，0x314159265359。根据 the source of bzip2 :

/*--
  A 6-byte block header, the value chosen arbitrarily
  as 0x314159265359 :-).  A 32 bit value does not really
  give a strong enough guarantee that the value will not
  appear by chance in the compressed datastream.  Worst-case
  probability of this event, for a 900k block, is about
  2.0e-3 for 32 bits, 1.0e-5 for 40 bits and 4.0e-8 for 48 bits.
  For a compressed file of size 100Gb -- about 100000 blocks --
  only a 48-bit marker will do.  NB: normal compression/
  decompression do *not* rely on these statistical properties.
  They are only important when trying to recover blocks from
  damaged files.
--*/

问题是:是不是所有的 bzip2 文件都会有块的开头与字节边界对齐？我的意思是所有由 bzip2 的引用实现创建的文件，bzip2-1.0.5+ 实用程序。

我认为 bzip2 可能不会将流解析为字节流，而是作为位流(块本身是由 huffman 编码的，它不是按设计字节对齐的)。

所以，换句话说:如果 grep -c 1AY&SY更大(霍夫曼可能会在块内生成 1AY&SY)或等于文件中 bzip2 块的数量？

最佳答案

BZIP2 查看比特流。

来自 http://blastedbio.blogspot.com/2011/11/random-access-to-bzip2.html :

Anyway, the important bits are that a BZIP2 file contains one or more "streams", which are byte aligned, each containing one (zero?) or more "blocks", which are not byte aligned, followed by an end of stream marker (the six bytes 0x177245385090 which is the square root of pi as a binary coded decimal (BCD), a four byte checksum, and empty bits for byte alignment).

bzip2 wikipedia文章还提到了位块对齐(参见文件格式部分)，这似乎与我在学校内存中的内容一致(必须实现算法......)。

关于block - Bzip2 block 头 : 1AY&SY，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18262703/

26

4

0

文章推荐： magento - 更改 Magento SKU 是否会影响订单历史记录

文章推荐： r - 如何生成分组虚拟变量？

文章推荐： sql - 对记录进行分组

mysql - 如何将 bzip 的输出通过管道传输到 mysql，以将数据直接从 bzip 压缩文件恢复到数据库中
为了直接以bz2格式转储数据库，我尝试使用管道直接压缩转储文件，如下: mysqldump -u userName -p myDataBase | bzip2 -c > myDump.sql.bz2
java - BZIP-OutputStream 的问题
首先是一些代码: ByteArrayOutputStream bos = new ByteArrayOutputStream(); CBZip2OutputStream zos = new CBZip
linux - bzip 命令不适用于 "tee -a"
我想使用 tee 命令将 bzip 命令的 stdop 重定向到日志文件，但它不起作用并且在 tee 命令中为“-a”给出错误。请查看下面的错误， > bzip2 file -c 1> tee -a
c++ - 使用 bzip boost iostream - 未解析的符号
我的项目使用的是带有 bzip2 的 Boost iostream 的旧版本。我现在正在尝试升级到 Boost 1.51。起初我没有用 bzip 编译，所以很明显我让链接器大喊 libboost_bz
linux - 为什么不能使用 gzip、bzip、bzip2、xz 压缩目录？
有什么方法可以压缩 GZip、BZip、BZip2、xz 格式的目录。我正在构建一个命令行工具(使用 bash)，我需要包含这些选项。最佳答案像这样的命令 tar czf output.tar.g
java - 在 Scala 中处理 BZIP 字符串/文件
我通过在 Scala 中进行 Python 挑战系列来惩罚自己。现在，挑战之一是读取使用 bzip 算法压缩的字符串并输出结果。 BZh91AY&SYA\xaf\x82\r\x00\x00\x01\
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
java - 如何使用 Apache Commons 解压缩 BZIP(不是 BZIP2)
我一直在致力于从不同类型的文件格式(例如“zip，tar，tbz，tgz”)解压缩的任务。我能够为除 tbz 之外的所有内容执行此操作，因为 apache common compress 库提供了 B
database - phpmyadmin 导出为 gzip、bzip 和 zip 时出现网络错误
我尝试通过 phpmyadmin 导出我的数据库，我可以在没有任何压缩的情况下导出它，但是当我选择任何类型的压缩(例如 gzip、bzip 或 zip)时，它最终会出现网络错误(Chrome)，源文件

首页

博学

6Ren·AI

商城

block - Bzip2 block 头 : 1AY&SY