gpt4 book ai didi

sorting - Redis 排序集中的大小写不可知词典排序

转载 作者:IT王子 更新时间:2023-10-29 06:13:53 26 4
gpt4 key购买 nike

我有一个很大的字符串列表(包含用户名,大约 350K 条记录)。我需要按词典顺序存储它,并且应该能够有效地检索成员存在*和成员相似度**。 Redis 排序集看起来像作业的数据类型。

然而,我似乎在第一关就倒下了。具体来说,我的一个关键要求是将不同的字母大小写放在一起,只要它们以相同的字母开头。例如。两者 Benderbender最终应该并排订购。然而,redis 的排序集严格遵循字典顺序规则,因此所有以大写字母开头的字符串默认排在所有以小写字母开头的字符串之前(例如 Z 排在 a 之前,但在 A 之后)。

有什么办法可以解决这个问题并仍然使用 redis 排序集来满足我的要求?仅供引用,我使用的是 redis 2.8.4 版。提前致谢。


*成员存在:给定一个用户名,检查它是否已经存在于存储集中

**成员相似度:给定一个用户名,拉取与给定用户名最相似的N个存储用户名

最佳答案

您需要对名称进行一些特殊编码。下面是一个例子。

假设所有名称的长度都小于 100 个字符。对于每个名称,执行以下步骤对其进行编码:

  1. 记录2位大写字母的索引:对于BeNd,索引为0002
  2. 将名称的大写字母转换为小写字母以获得小写名称:从 BeNdbend
  3. 将索引附加到小写名称以获得编码名称:从bendbend0002
  4. 编码名称添加到排序集中:zadd key 0 bend0002

这样,BeNdbend 应该并排排序。

当您想进行搜索时,使用相同的编码方法对给定名称进行编码,进行搜索,并对结果进行解码。由于encoded name记录的是大写字母的索引,所以很容易解码。

关于sorting - Redis 排序集中的大小写不可知词典排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42036241/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com