- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以在我的社交网站上,类似于 facebook,我的搜索速度被这一部分限制了 98%。我想根据搜索用户拥有的共同 friend 的数量对结果进行排名,所有结果(我们可以假设他们是用户)
我的 friend 表有 3 列 -
user_id 和 friend_id 都是引用 users.id 的外键
查找用户的 friend_ids 很简单,看起来像这样
def friends
Friend.where(
'(user_id = :id OR friend_id = :id) AND pending = false',
id: self.id
).pluck(:user_id, :friend_id)
.flatten
.uniq
.reject { |id| id == self.id }
end
因此,在获得与搜索查询匹配的结果后,将结果按共同好友排名,需要执行以下步骤-
这里最昂贵的操作显然是获取数百个用户的 friend_ids。所以我缓存了所有用户的 friend_ids 以加快速度。性能上的差异是惊人的,但我很好奇它是否可以进一步改进。
我想知道是否有一种方法可以在单个查询中获取所有所需用户的 friend_ids,这种方法非常有效。有点像 -
SELECT user_id, [array of friend_ids of the user with id = user_id]
FROM friends
....
谁能帮我写一个快速的 SQL 或 ActiveRecord 查询?
这样我就可以将所有搜索结果的 user_id 及其对应的 friend_id 存储在哈希或其他一些快速数据结构中,然后执行相同的排名操作(我在上面提到过)。因为我不会为成千上万的用户和他们的 friend_ids 访问缓存,所以我认为它会显着加快这个过程
最佳答案
如果您希望您的站点增长到大量用户,那么在 RAM 中缓存您的 friends
表不是一个可行的方法,但我确信它对少量用户非常有用。
以尽可能少的调用从数据库中获得最多的工作对您有利。发出大量查询是低效的,因为每个查询的开销相对较大。此外,数据库是为您要执行的任务类型而构建的。我认为您在 Ruby 方面做的工作太多了,您应该让数据库做它最擅长的工作。
你没有提供很多细节,所以我决定从定义一个最小模型数据库开始:
create table users (
user_id int not null primary key,
nick varchar(32)
);
create table friends (
user_id int not null,
friend_id int not null,
pending bool,
primary key (user_id, friend_id),
foreign key (user_id) references users(user_id),
foreign key (friend_id) references users(user_id),
check (user_id < friend_id)
);
friends
上的check
约束避免了同一对用户以两种顺序列在表中,当然 PK 防止同一对用户被多次注册次序相同。 PK 还自动具有与之关联的唯一索引。
因为我假设“是……的 friend ”关系应该是逻辑对称的,所以定义一个呈现这种对称性的 View 很方便:
create view friends_symmetric (user_id, friend_id) as (
select user_id, friend_id from friends where not pending
union all
select friend_id, user_id from friends where not pending
);
(如果友谊不是对称的,那么您可以删除检查约束和 View ,并使用表friends
代替friends_symmetric
以下内容。)
作为你想要对其结果进行排名的模型查询,那么,我采取这个:
select * from users where nick like 'Sat%';
目标是按每次命中与 User1(代表其运行查询的用户)共有的 friend 数的降序返回结果行。你可以这样做:
(更新:修改了这个查询以过滤掉重复的结果)
select *
from (
select
u.*,
count(mutual.shared_friend_id) over (partition by u.user_id) as num_shared,
row_number() over (partition by u.user_id) as copy_num
from
users u
left join (
select
f1.friend_id as shared_friend_id,
f2.friend_id as friend_id
from friends_symmetric f1
join friends_symmetric f2
on f1.friend_id = f2.user_id
where f1.user_id = ?
and f2.friend_id != f1.user_id
) mutual
on u.user_id = mutual.friend_id
where u.nick like 'Sat%'
) all_rows
where copy_num = 1
order by num_shared desc
其中 ?
是包含 User1 ID 的参数的占位符。
编辑添加:
我用窗口函数而不是聚合查询来构造这个查询,因为这样的结构对于查询规划器来说更容易优化。然而,内联 View “相互”可以改为构造为聚合查询,该查询计算搜索用户与每个共享至少一个 friend 的用户拥有的共享 friend 的数量,并且这将允许避免一级内联 View .如果所提供查询的性能不足或变得不足,则值得测试该变体。
还有其他方法可以解决在数据库中执行排序的问题,其中一些可能表现更好,并且可能有一些方法可以通过调整数据库(添加索引或约束、修改表定义)来提高每种方法的性能,计算数据库统计信息,...)。
我无法预测该查询是否会优于您现在正在执行的查询,但我向您保证它的扩展性更好,并且更易于维护。
关于sql - 尽管有缓存,搜索查询的性能还是被共同好友限制了 98%,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32485304/
我阅读了有关 JSR 107 缓存 (JCache) 的内容。 我很困惑:据我所知,每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。 那么,为什么我们需要 Java 缓存处理程序? (如果C
好吧,我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此,鉴于此链接:http://jqueryui.com/sortable/#dis
我正在使用 Struts 2 和 Hibernate。我有一个简单的表,其中包含一个日期字段,用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。 我遇到的问题是hibernate更
我有点不确定这里发生了什么,但是我试图解释正在发生的事情,也许一旦我弄清楚我到底在问什么,就可能写一个更好的问题。 我刚刚安装了Varnish,对于我的请求时间来说似乎很棒。这是一个Magneto 2
解决 Project Euler 的问题后,我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发,作者推荐 devpi,请参见此处:https://bitbuc
我想到的一个问题是可以从一开始就缓存网络套接字吗?在我的拓扑中,我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里?它们之间的主要区别是什么? 据我了解,页面缓存是主内存的一部分,用于存储从 I/O 设备获取的
1.题目 请你为最不经常使用(LFU)缓存算法设计并实现数据结构。 实现 LFUCache 类: LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
1.题目 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: ① LRUCache(int capacity) 以正整数作为容量 capacity
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。 好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户,并且每个人都在运行相同的 Dockerfile,但将镜像存储为 user1_myapp . user2 将其存储为 use
在 Codeigniter 中没有出现缓存问题几年后,我发现了一个问题。我在其他地方看到过该问题,但没有适合我的解决方案。 例如,如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存,我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。 如果我只对例如进行读取
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。 谢谢! 最佳答案 According to a JetBrains employe
我想制作一个 python 装饰器来内存函数。例如,如果 @memoization_decorator def add(a, b, negative=False): print "Com
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数,我的代码会获得任何显着的额外性能吗?
是的,我要说实话,我不知道varnish vcl,我可以解决一些基本问题,但是我不太清楚,这就是为什么我遇到问题了。 我正在尝试通过http请求设置缓存禁止,但是该请求不能通过DNS而是通过 Varn
在 WP 站点上加载约 4000 个并发用户时遇到此问题。 这是我的配置: F5 负载均衡器 ---> Varnish 4,8 核,32 Gb RAM ---> 9 个后端,4 个核,每个 16 RA
我是一名优秀的程序员,十分优秀!