linux - 重用压缩字典-6ren

linux - 重用压缩字典

转载作者：太空狗更新时间：2023-10-29 11:44:41

25

4

是否有一种压缩工具可以让您将其字典(或类似的)与压缩输出分开输出，以便字典可以在后续压缩中重新使用？这个想法是一次性传输字典，或者在远程站点使用引用字典，并使压缩文件更小以便传输。

我查看了一堆常见压缩工具的文档，但我找不到真正支持它的工具。但大多数常见的压缩工具并不是直接的字典压缩。

我想象的用法是:

compress_tool --dictionary compressed.dict -o compressed.data uncompressed
decompress_tool --dictionary compressed.dict -o uncompressed compressed.data

为了扩展我的用例，我有一个 500MB 的二进制文件 F，我想通过慢速网络进行复制。单独压缩文件会产生 200MB 的大小，这仍然比我想要的要大。但是，我的源和目标都有一个文件 F'，它与 F 非常相似，但差异很大，二进制差异工具无法正常工作。我在想，如果我在两个站点上压缩 F'，然后重新使用有关该压缩的信息来压缩源上的 F，我可能会从传输中删除一些可以使用 F' 在目标上重建的信息。

最佳答案

预设词典对于这种大小的文件并不是很有用。它们非常适合小数据(想想压缩数据库中的字段、RPC 查询/响应、XML 或 JSON 片段等)，但对于像您这样的大文件，算法会非常快速地建立自己的字典。

也就是说，碰巧我在 Squash 中使用预设词典最近，我确实有一些代码可以完成您所说的 zlib 插件的大部分工作。我不会把它推到 master(如果我决定支持预设词典，我会考虑不同的 API)，但如果你想使用，我只是把它推到 'deflate-dictionary-file' 分支看。要压缩，请执行以下操作

squash -ko dictionary-file=foo.dict -c zlib:deflate uncompressed compressed.deflate

解压，

squash -dko dictionary-file=foo.dict -c zlib:deflate compressed.deflate decompressed

据我所知，zlib 中没有任何东西支持构建字典——你必须自己做。 zlib 文档描述了“格式”:

The dictionary should consist of strings (byte sequences) that are likely to be encountered later in the data to be compressed, with the most commonly used strings preferably put towards the end of the dictionary. Using a dictionary is most useful when the data to be compressed is short and can be predicted with good accuracy; the data can then be compressed better than with the default empty dictionary.

为了测试，我使用了这样的东西 (YMMV):

cat input | tr ' ' '\n' | sort | uniq -c | awk '{printf "%06d %s\n",$1,$2}' | sort | cut -b8- | tail -c32768

关于linux - 重用压缩字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24026900/

25

4

0

文章推荐： html - 是否可以选择 css 生成的内容？

文章推荐： css - 更改文本区域中的文本区域光标颜色

字典 .title() 中的 Python 字典
我只想国家和资本化的值(value)。这是我的完整代码: cities = { 'rotterdam': { 'country': 'netherlands',
vba - Excel VBA - 字典.Exists(字典)？
想更好地了解如何比较对象类型的键。 dicOverall.exists(dic2) 返回 False，而 dicOverall.exists(dic1) 返回 True。我不太确定 .Exists 如
Python - 字典
我是编程和 python 的新手，我不知道如何解决这个问题。 my_dict = {'tiger': ['claws', 'sharp teeth', 'four legs', 'stripes'
JavaScript 字典
这个问题已经有答案了: Accessing an object property with a dynamically-computed name (19 个回答) 已关闭 8 年前。我引用了这篇文
Python数据结构，字典？
希望有人能帮忙。我正在使用 Python，我希望能够执行以下操作。我有一组对象(例如形状)和一系列作用于这些对象的命令。命令的格式为命令字符串，后跟可变数量的参数，可以是字符串或整数例如形状“矩形
Python内存管理——字典
我在文件中保存了一本字典。我从 python 交互式 shell 将字典加载到内存中，我的系统监视器显示 python 进程消耗了 4GB。以下命令提供以下输出: size1 = sys.getsiz
仅当定义了值时才更新 Python 字典
如果我运行以下代码: import json foo = [ { "name": "Bob", "occupation": "", "stand
r - 将所有列名及其索引对保存为数据框/字典
我尝试获取列名及其索引，并将结果保存为数据框或字典: df <- data.frame(a=rnorm(10), b=rnorm(10), c=rnorm(10)) 我该怎么做？谢谢。 column
python - 字典，从键中调用值
我正在尝试获取输入，如果字典 logins 有一个与我的输入匹配的键，我想返回该键的值。 logins = { 'admin':'admin', 'turtle':'password1
Perl CPAN 字典
在 Perl 世界中有一个很棒的东西叫做 CPAN .它是开源 Perl 库的大型存储。我使用来自 CPAN 的模块，我已经发布了 several distributions myself . 我使
Python "valueless"字典
这个问题已经有答案了: Is there a Python dict without values? (3 个回答) 已关闭 3 年前。我有一个问题，我想跟踪大量值。如果我从未遇到过该值，我将执行操
.net - 使用带有字符串键和不区分大小写的搜索的哈希表/字典
想知道这是否可能。我们有一个第 3 方库，其中包含有关用户的识别信息... 与库的主要交互是通过一个以字符串为键的 HashTable，并返回该键的信息对象图。问题是， key 显然是区分大小写的
F#:字典、哈希表和映射之间的区别
我是 .NET 编程的新手。对不起，如果这个问题以前被问过。我目前正在学习 F#。 Dictionary、Hashtable 和 Map 之间有什么区别？我应该什么时候使用？我还有一个标题中没有提
opencv - 使用功能包进行分类的词汇/字典
我正在尝试使用SVM进行3类分类。为此，我正在SVM培训期间准备词汇表。但是，由于我在SVM预测期间获得随机结果，因此我怀疑我的词汇创建方法中存在一些问题。我创建词汇的代码如下: //Mat trai
r - 为什么R的关联数组被称为列表而不是映射/字典
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
python - 字典:如何列出包含某个值的每个关键路径？
假设我有一个以下形式的嵌套字典: {'geo': {'bgcolor': 'white','lakecolor': 'white','caxis': {'gridcolor': 'white', 'l
java - 字典:硬编码与外部文件
我有一个 java 应用程序，每秒启动和停止数亿个项目(从外部脚本调用)多次。 Input: String key Output: int value 此应用程序的目的是在从未永远改变的Map(约30
excel - 字典、集合和数组的比较
我正在尝试找出字典与集合和数组相比的相对优势和功能。我发现了一篇很棒的文章here但找不到一个简单的表格来比较所有不同的功能。有人知道吗？最佳答案请参阅下表，对集合和字典进行有用的比较。 (该
具有默认值的 .net 字典
我想要一个字典，它可以为字典中没有的任何键返回一个指定的值，例如: var dict = new DictWithDefValues("not specified"); dict.Add("bob78
python - 多个函数中的相同列表/字典
我是 python 新手，目前仍在学习如何处理列表和字典。我有这两个功能 def food_database(item_name, size_serv, calorie_serv, prot

首页

博学

6Ren·AI

商城

linux - 重用压缩字典