gpt4 book ai didi

.net - 可搜索的静态字符串存储

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:12:07 25 4
gpt4 key购买 nike

我们有大量包含组合和名称属性的对象,这两个字符串值都包含大量重复的值,什么数据结构适合存储可搜索且较小的字符串?

数据包括许多重复或仅略有不同的化学品和产品名称。我希望能够以也可以搜索的压缩格式存储对象的字符串内容。

我已经尝试使用 Tries 对名称进行快速搜索索引,但目前这是对每个对象字符串数据存储的补充。

此数据是静态的,并作为单独的二进制文件与应用程序一起分发。

最佳答案

我以前有过 some success将 LZW 压缩与大表混合使用,然后实习到 32 位标识符。对于足够相似的语料库,LZW 可以压缩到少于 32 位,因此 id 上有一个标志,因此它被视为压缩位模式而不是哈希表中的键。由于 LZW 是基于前缀的,因此您可以以某种类似于 trie 的方式搜索它,但它有点棘手;根据扩展时位模式是否包含任何查询字符进行测试会更容易,如果包含则扩展字符串并使用传统的字符串比较。

关于.net - 可搜索的静态字符串存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1929696/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com