gpt4 book ai didi

对文件中的随机访问有良好支持的压缩格式?

转载 作者:行者123 更新时间:2023-12-02 23:27:05 29 4
gpt4 key购买 nike

这类似于 previous question ,但那里的答案不能满足我的需求,我的问题略有不同:

我目前对一些包含排序数据的非常大的文件使用 gzip 压缩。当文件未压缩时,二进制搜索是一种方便且有效的方式来支持在已排序数据中查找某个位置。

但是当文件被压缩时,事情变得棘手。我最近发现了 zlibZ_FULL_FLUSH选项,可在压缩期间用于在压缩输出中插入“同步点”(inflateSync() 然后可以从文件中的各个点开始读取)。这没关系,尽管我已经拥有的文件必须重新压缩才能添加此功能(奇怪的是 gzip 没有此选项,但如果必须,我愿意编写自己的压缩程序)。

似乎来自 one source甚至 Z_FULL_FLUSH不是一个完美的解决方案......不仅不是所有 gzip 存档都支持它,而且检测存档中同步点的想法可能会产生误报(与同步点的魔数(Magic Number)重合,或者由于事实Z_SYNC_FLUSH 也产生同步点,但它们不能用于随机访问)。

有更好的解决方案吗?如果可能,我想避免使用辅助文件进行索引,并且对准随机访问的显式默认支持会有所帮助(即使它是大粒度的——比如能够以每 10 MB 的间隔开始读取)。有没有比 gzip 更好地支持随机读取的另一种压缩格式?

编辑 : 正如我提到的,我希望在压缩数据中进行二分查找。我不需要寻找特定的(未压缩的)位置——只需要在压缩文件中以一些粗粒度的方式寻找。我只想支持诸如“将大约 50%(25%、12.5% 等)的数据解压缩到这个压缩文件中”之类的内容。

最佳答案

我不知道有任何压缩文件格式可以支持随机访问未压缩数据中的特定位置(嗯,多媒体格式除外),但您可以自己制作。

例如,bzip2 压缩文件由大小 <1MB 未压缩的独立压缩块组成,这些块由魔术字节序列分隔,因此您可以解析 bzip2 文件,获取块边界,然后解压缩正确的块。这需要一些索引来记住块从哪里开始。

不过,我认为最好的解决方案是将您的文件拆分为您选择的块,然后使用一些存档程序(如 zip 或 rar)对其进行压缩,它们支持随机访问存档中的单个文件。

关于对文件中的随机访问有良好支持的压缩格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/429987/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com