- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我的数据由用户 ID 和这些用户 ID 的标签组成。user_ids 出现多次并具有预先指定的标签数 (500),但是这可能会在功能中发生变化。必须存储的是user_id、他们的标签和他们的数量。我想稍后轻松找到得分最高的标签..等等。每次出现标签时它都会递增
我在redis中的实现是使用排序集完成的
每个 user_id 都是一个有序集
key 是 user_id,是一个十六进制数
像这样工作:
zincrby user_id:x 1 "tag0"
zincrby user_id:x 1 "tag499"
zincrby user_id:y 1 "tag3"
等等
考虑到我想获得得分最高的标签,有没有更好的方法?
第二个问题是,现在我正在使用“keys *”来检索这些 key 以进行客户端操作,我知道它不是针对生产系统的。
此外,迭代指定数量的键(在 10000 范围内)对于内存问题会很好。我知道 key 必须存储在内存中,但是它们不遵循允许部分检索的特定模式,这样我就可以避免“zmalloc”错误(4GB 64 位 debian 服务器)。 key 数量达到 2000 万个。有什么想法吗?
最佳答案
我要指出的第一点是,4 GB 空间不足以存储 20M 个排序集。快速尝试显示 2000 万用户,每个用户有 20 个标签,在 64 位盒子上将占用大约 8 GB(并且它考虑了 Redis 2.4 提供的排序集 ziplist 内存优化 - 甚至不要在早期版本中尝试这个) .
排序集是支持您的用例的理想数据结构。我会完全按照您的描述使用它们。
正如您所指出的,KEYS 不能用于迭代键。它更像是一个调试命令。要支持 key 迭代,需要添加一个数据结构来提供这个访问路径。 Redis 中唯一可以支持迭代的结构是列表和排序集(通过范围方法)。但是,他们倾向于将 O(n) 迭代算法转换为 O(n^2)(对于列表)或 O(nlogn)(对于 zset)。列表也是存储 key 的糟糕选择,因为在添加/删除 key 时很难维护它。
一个更有效的解决方案是添加一个由正则集组成的索引。需要使用哈希函数将特定用户关联到一个桶中,并将用户id添加到这个桶对应的集合中。如果用户 id 是数值,一个简单的模函数就足够了。如果不是,一个简单的字符串哈希函数就可以解决问题。
因此,为了支持 user:1000、user:2000 和 user:1001 的迭代,让我们选择一个模 1000 函数。 user:1000 和 user:2000 将被放入 bucket index:0,而 user:1001 将被放入 bucket index:1。
所以在 zsets 之上,我们现在有以下键:
index:0 => set[ 1000, 2000 ]
index:1 => set[ 1001 ]
在集合中,不需要键的前缀,它允许 Redis 通过序列化集合来优化内存消耗,前提是它们保持足够小(Sripathi Krishnan 提出的整数集合优化)。
全局迭代包含在从 0 到 1000(排除)的桶上的一个简单循环。对于每个桶,应用 SMEMBERS 命令来检索相应的集合,然后客户端可以迭代各个项目。
这是 Python 中的示例:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# ----------------------------------------------------
import redis, random
POOL = redis.ConnectionPool(host='localhost', port=6379, db=0)
NUSERS = 10000
NTAGS = 500
NBUCKETS = 1000
# ----------------------------------------------------
# Fill redis with some random data
def fill(r):
p = r.pipeline()
# Create only 10000 users for this example
for id in range(0,NUSERS):
user = "user:%d" % id
# Add the user in the index: a simple modulo is used to hash the user id
# and put it in the correct bucket
p.sadd( "index:%d" % (id%NBUCKETS), id )
# Add random tags to the user
for x in range(0,20):
tag = "tag:%d" % (random.randint(0,NTAGS))
p.zincrby( user, tag, 1 )
# Flush the pipeline every 1000 users
if id % 1000 == 0:
p.execute()
print id
# Flush one last time
p.execute()
# ----------------------------------------------------
# Iterate on all the users and display their 5 highest ranked tags
def iterate(r):
# Iterate on the buckets of the key index
# The range depends on the function used to hash the user id
for x in range(0,NBUCKETS):
# Iterate on the users in this bucket
for id in r.smembers( "index:%d"%(x) ):
user = "user:%d" % int(id)
print user,r.zrevrangebyscore(user,"+inf","-inf", 0, 5, True )
# ----------------------------------------------------
# Main function
def main():
r = redis.Redis(connection_pool=POOL)
r.flushall()
m = r.info()["used_memory"]
fill(r)
info = r.info()
print "Keys: ",info["db0"]["keys"]
print "Memory: ",info["used_memory"]-m
iterate(r)
# ----------------------------------------------------
main()
通过调整常量,您还可以使用此程序来评估此数据结构的全局内存消耗。
IMO 这种策略简单而高效,因为它提供了 O(1) 复杂度来添加/删除用户,以及真正的 O(n) 复杂度来迭代所有项目。唯一的缺点是 key 迭代顺序是随机的。
关于Redis 排序集和存储 uid 的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9127736/
我有一个关于 Redis Pubsub 的练习,如下所示: 如果发布者发布消息但订阅者没有收到服务器崩溃。订阅者如何在重启服务器时收到该消息? 请帮帮我,谢谢! 最佳答案 在这种情况下,消息将永远消失
我们正在使用 Service Stack 的 RedisClient 的 BlockingDequeue 来保存一些数据,直到它可以被处理。调用代码看起来像 using (var client =
我有一个 Redis 服务器和多个 Redis 客户端。每个 Redis 客户端都是一个 WebSocket+HTTP 服务器,其中包括管理 WebSocket 连接。这些 WebSocket+HTT
我有多个 Redis 实例。我使用不同的端口创建了一个集群。现在我想将数据从预先存在的 redis 实例传输到集群。我知道如何将数据从一个实例传输到集群,但是当实例多于一个时,我无法做到这一点。 最佳
配置:三个redis集群分区,跨三组一主一从。当 Master 宕机时,Lettuce 会立即检测到中断并开始重试。但是,Lettuce 没有检测到关联的 slave 已经将自己提升为 master
我想根据从指定集合中检索这些键来删除 Redis 键(及其数据集),例如: HMSET id:1 password 123 category milk HMSET id:2 password 456
我正在编写一个机器人(其中包含要禁用的命令列表),用于监视 Redis。它通过执行禁用命令,例如 (rename-command ZADD "")当我重新启动我的机器人时,如果要禁用的命令列表发生变化
我的任务是为大量听众使用发布/订阅。这是来自 docs 的订阅的简化示例: r = redis.StrictRedis(...) p = r.pubsub() p.subscribe('my-firs
我一直在阅读有关使用 Redis 哨兵进行故障转移的内容。我打算有1个master+1个slave,如果master宕机超过1分钟,就把slave变成master。我知道这在 Sentinel 中是
与仅使用常规 Redis 和创建分片相比,使用 Redis 集群有哪些优势? 在我看来,Redis Cluster 更注重数据安全(让主从架构解决故障)。 最佳答案 我认为当您需要在不丢失任何数据的情
由于 Redis 以被动和主动方式使 key 过期, 有没有办法得到一个 key ,即使它的过期时间已过 (但 在 Redis 中仍然存在 )? 最佳答案 DEBUG OBJECT myKey 将返回
我想用redis lua来实现monitor命令,而不是redis-cli monitor。但我不知道怎么办。 redis.call('monitor') 不起作用。 最佳答案 您不能从 Redis
我读过 https://github.com/redisson/redisson 我发现有几个 Redis 复制设置(包括对 AWS ElastiCache 和 Azure Redis 缓存的支持)
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
1. 认识 Redis Redis(Remote Dictionary Server)远程词典服务器,是一个基于内存的键值对型 NoSQL 数据库。 特征: 键值(key-value)型,value
1. Redis 数据结构介绍 Redis 是一个 key-value 的数据库,key 一般是 String 类型,但 value 类型多种多样,下面就举了几个例子: value 类型 示例 Str
1. 什么是缓存 缓存(Cache) 就是数据交换的缓冲区,是存贮数据的临时地方,一般读写性能较高。 缓存的作用: 降低后端负载 提高读写效率,降低响应时间 缓存的成本: 数据一致性成本 代码维护成本
我有一份记录 list 。对于我的每条记录,我都需要进行一些繁重的计算,因为我要在Redis中创建反向索引。为了达到到达记录,需要在管道中执行多个redis命令(sadd为100 s + set为1
我有一个三节点Redis和3节点哨兵,一切正常,所有主服务器和从属服务器都经过验证,并且哨兵配置文件已与所有Redis和哨兵节点一起更新,但是问题是当Redis主服务器关闭并且哨兵希望选举失败者时再次
我正在尝试计算Redis中存储的消息之间的响应时间。但是我不知道该怎么做。 首先,我必须像这样存储chat_messages的时间流 ZADD conversation:CONVERSATION_ID
我是一名优秀的程序员,十分优秀!