- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用 this marisa trie 的自定义 Cython 包装器作为键值 multimap 的库。
我的 trie 条目看起来像 key 0xff data1 0xff data2
将 key
映射到元组 (data1, data2)
。 data1
是可变长度的字符串,但 data2
始终是 4 字节无符号整数。 0xff
是一个分隔符字节。
我知道从理论上讲,trie 并不是最佳的数据结构,但各种实际考虑使它成为最佳选择。
在这个用例中,我有大约 10-20 百万个键,每个键平均有 10 个数据点。 data2
对于许多条目来说是多余的(在某些情况下,对于给定键的所有数据点,data2
始终相同),所以我想到了采用最频繁的data2
条目并向每个键添加一个 ("", base_data2)
数据点。
据我所知,由于 MARISA trie 没有后缀压缩,并且对于给定的键,每个 data1
都是唯一的,我假设这将为每个使用冗余键的数据元组节省 4 个字节(加上为每个键添加一个 4 字节“值”)。重建 trie 后,我检查了冗余数据是否不再存储。我预计序列化和内存大小都会大幅减少,但实际上磁盘上的 trie 从 566MB 减少到 557MB(加载的 trie 的 RAM 使用量也有类似的减少)。
由此我得出结论,我对没有后缀压缩的看法一定是错误的。我现在将带有冗余 data2
编号的条目存储为 key 0xff data1 0xff
,因此为了测试这个理论,我删除了尾随 0xff
并进行了调整使用 trie 来应对的代码。新的 trie 从 557MB 减少到 535MB。
因此,删除单个冗余尾随字节比删除 相同数量 的 4 字节序列有 2 倍的改进,所以后缀压缩理论要么是完全错误的,要么是在一些非常复杂的实现中实现的方式。
我剩下的理论是,在 trie 的较高位置添加 ("", base_data2)
条目会以某种可怕的方式取消压缩,但它应该只是添加 4当我从 trie 的较低位置删除更多字节时,更多字节。
我对修复并不乐观,但我非常想知道为什么我会看到这种行为!感谢您的关注。
最佳答案
正如我所怀疑的那样,这是由填充引起的。
在lib/marisa/grimoire/vector/vector.h
中,有如下函数:
void write_(Writer &writer) const {
writer.write((UInt64)total_size());
writer.write(const_objs_, size_);
writer.seek((8 - (total_size() % 8)) % 8);
}
重点是:writer.seek((8 - (total_size() % 8)) % 8);
。写入每个 block 后,写入器填充到下一个 8 字节边界。
这解释了您所看到的行为,因为最初缩短 key 所删除的部分数据被替换为填充。
当您删除额外的字节时,它会使 key 大小低于下一个边界限制,从而导致大小发生重大变化。
实际上,这意味着,由于填充代码位于库的序列化部分,您可能获得了预期的内存节省,但这并没有转化为磁盘节省 。监控程序 RAM 使用情况应该可以确认这一点。
如果您关心磁盘大小,那么您也可以简单地压缩序列化数据,因为 MARISA 似乎没有应用任何压缩。
关于python - marisa trie 后缀压缩?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44895094/
我有点想做 the reverse of this. 我不想解压缩并将收集文件添加到 S3 应用户要求: 生成一堆xml文件 使用一些图像(托管在 s3 上的预先存在的图像)压缩 xml 文件 下载
将此添加到域的虚拟主机后 AddOutputFilterByType DEFLATE application/javascript text/javascript text/css 响应头不包含任何内
在 Apache Im 中,通过将以下内容添加到我的 .htaccess 文件来启用输出压缩: # compress text, html, javascript, css, xml: AddOutp
是否可以以压缩格式将请求数据从浏览器发送到服务器? 如果是,我们该怎么做? 最佳答案 压缩从浏览器发送到服务器的数据是不受 native 支持 在浏览器中。 您必须找到一种解决方法,使用客户端语言(可
我正在寻找可以压缩JavaScript源代码的工具。我发现一些网络工具只能删除空格字符?但也许存在更好的工具,可以压缩用户的函数名称、字段名称、删除未使用的字段等。 最佳答案 经常用来压缩JS代码的工
使用赛马博彩场景,假设我有许多单独的投注来预测比赛的前 4 名选手 (superfecta)。 赌注如下... 1/2/3/4 1/2/3/5 1/2/4/3 1/2/4/5 1/2/5/3
我是一名实习生,被要求对 SQL 2008 数据压缩进行一些研究。我们想将 Outlook 电子邮件的几个部分存储在一个表中。问题是我们想将整个电子邮件正文存储在一个字段中,然后又想压缩它。使用 Ch
我目前有一个系统,用户可以在其中上传 MP4 文件,并且可以在移动设备上下载该文件。但有时,这些视频的大小超过 5MB,在我国,大多数人使用 2G。因此,下载大型视频通常需要 15-20 分钟。 有什
假设我有一个带有类型列的简单文档表: Documents Id Type 1 A 2 A 3 B 4 C 5 C 6 A 7 A 8 A 9 B 10 C 用户
我有一个较大字符串中的(子)字符串位置的 data.frame。数据包含(子)字符串的开头及其长度。可以很容易地计算出(子)字符串的结束位置。 data1 start length end #>
我想知道是否 文件加密算法可以设计成它也可以执行文件压缩的事件(任何活生生的例子?)。 我也可以将它集成到移动短信服务中,我的意思是短信吗? 另外我想知道二进制文件...如果纯文本文件以二进制编码
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我们有几个具有大量 JavaScript 的 Java 项目,目前我们使用的是旧版本的 YUICompressor (2.4.2)。然而,我在这篇博文中发现 YUICompressor 正在 depr
从之前关于尝试提高网站性能的文章中,我一直在研究 HTTP 压缩。我读过有关在 IIS 中设置它的信息,但它似乎是所有 IIS 应用程序池的全局事物,我可能不允许这样做,因为还有另一个站点在其上运行。
我有一个 REST 服务,它返回一大块 XML,大约值(value) 150k。 例如http://xmlservice.com/services/RestService.svc/GetLargeXM
我正在尝试获取一个简单的 UglifyJS (v2.3.6) 示例来处理压缩。 具体来说,“未使用”选项,如果从未使用过,变量和函数将被删除。 这是我在命令行上的尝试: echo "function
我正在开发一个项目,如果我的磁盘出现问题,我将在使用 ZLIB 压缩内存块后将其发送到另一个磁盘。然后我计划下载该转储并用于进一步调试。这种压缩和上传将一次完成一个 block - 比如说 1024
LZW 压缩算法在压缩后增加了位大小: 这是压缩函数的代码: // compression void compress(FILE *inputFile, FILE *outputFile) {
我的问题与如何在 3D 地形上存储大量信息有关。这些信息应该是 secret 的,因为它们非常庞大,也应该被压缩。我选择了文件存储,现在我想知道将对象数据加密/压缩(或压缩/加密)到文件的最佳做法。
我使用以下代码来压缩我的文件并且效果很好,但我只想压缩子文件夹而不是在压缩文件中显示树的根。 public boolean zipFileAtPath(String sourcePath, Strin
我是一名优秀的程序员,十分优秀!