gpt4 book ai didi

algorithm - 有没有办法从文件中存储 gzip 的字典?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:40:20 24 4
gpt4 key购买 nike

我一直在研究基于压缩的文本分类,我正在尝试找出一种方法来存储由编码器(在训练文件上)构建的字典,用于在测试中“静态”运行文件?这完全有可能使用 UNIX 的 gzip 实用程序吗?

例如,我一直在使用 sport.txt 和 atheism.txt 的 2 个“类”文件,因此我想对这两个文件运行压缩并存储它们使用的字典。接下来,我想获取一个测试文件(未标记,可以是无神论或运动),并通过在此 test.txt 上使用预建词典,我可以分析它在该词典/模型下的压缩情况。

谢谢

最佳答案

deflate 编码器,如 gzip 和 zlib,不“构建”字典。他们只是使用前面的 32K 字节作为与从当前位置开始的字节串的潜在匹配的源。最后的 32K 字节被称为“字典”,但这个名字可能具有误导性。

您可以使用 zlib尝试使用预设词典。请参阅 deflateSetDictionary()inflateSetDictionary() 函数。在这种情况下,zlib 压缩以一个 32K 字节的“字典”为基础,它有效地位于第一个字节之前作为匹配源被压缩,但字典本身没有被压缩。启动只能提高前 32K 字节的压缩率。之后,预设词典太过落后,无法提供匹配。

gzip 不支持预设词典。

关于algorithm - 有没有办法从文件中存储 gzip 的字典?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15295036/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com