gpt4 book ai didi

compression - 如何计算用于放气压缩的良好预设字典

转载 作者:行者123 更新时间:2023-12-01 02:24:35 25 4
gpt4 key购买 nike

我有机会为放气压缩预设字典。就我而言,这是有道理的,因为要压缩的数据相对较小,只有 1kb-3kb,而且我有大量代表性示例。要压缩的数据由任意字节序列组成,因此标记化等不是一个好方法。此外,数据显示了很多重复(在数据示例之间),因此好的字典可能会提供非常好的结果。
问题是如何计算好的字典?是否有计算最佳字典(给定样本数据)的算法?

我开始研究前缀树,但不清楚如何在这种情况下使用它们。

此致,
贾雷克

最佳答案

我不知道有什么算法可以生成最佳的甚至是好的字典。这通常是手工完成的。我认为后缀树是查找字典常用字符串的好方法,但我从未尝试过。

要尝试的第一件事是简单地连接值(value) 32K 的 1-3K 示例,然后看看与没有字典相比能提供多少 yield 。然后你从那里开始处理它,改变示例的顺序或将示例中的重复部分拉到字典的末尾。

请注意,最常见的字符串应该放在最后,因为较短的距离需要较少的位。

关于compression - 如何计算用于放气压缩的良好预设字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17608271/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com