sql - 尽管有缓存，搜索查询的性能还是被共同好友限制了 98%-6ren

sql - 尽管有缓存，搜索查询的性能还是被共同好友限制了 98%

转载作者：行者123 更新时间：2023-11-29 13:26:45

27

4

所以在我的社交网站上，类似于 facebook，我的搜索速度被这一部分限制了 98%。我想根据搜索用户拥有的共同 friend 的数量对结果进行排名，所有结果(我们可以假设他们是用户)

我的 friend 表有 3 列 -

user_id(发送请求的人)
friend_id(收到请求的人)
pending( bool 值表示请求是否被接受)

user_id 和 friend_id 都是引用 users.id 的外键

查找用户的 friend_ids 很简单，看起来像这样

def friends
  Friend.where(
    '(user_id = :id OR friend_id = :id) AND pending = false',
     id: self.id
  ).pluck(:user_id, :friend_id)
   .flatten
   .uniq
   .reject { |id| id == self.id }
end

因此，在获得与搜索查询匹配的结果后，将结果按共同好友排名，需要执行以下步骤-

获取所有搜索用户的 friend 的 user_ids - Set(A)。上面提到的 friend 方法就是这样做的
遍历 Set(A) 中的每个 id -
- 获取|id|的所有好友的user_ids - 设置 (B)。同样，通过 friend 的方法完成
- 求集合A和集合B的交集长度
对所有结果按交集长度降序排列

这里最昂贵的操作显然是获取数百个用户的 friend_ids。所以我缓存了所有用户的 friend_ids 以加快速度。性能上的差异是惊人的，但我很好奇它是否可以进一步改进。

我想知道是否有一种方法可以在单个查询中获取所有所需用户的 friend_ids，这种方法非常有效。有点像 -

SELECT user_id, [array of friend_ids of the user with id = user_id]
FROM friends
....

谁能帮我写一个快速的 SQL 或 ActiveRecord 查询？

这样我就可以将所有搜索结果的 user_id 及其对应的 friend_id 存储在哈希或其他一些快速数据结构中，然后执行相同的排名操作(我在上面提到过)。因为我不会为成千上万的用户和他们的 friend_ids 访问缓存，所以我认为它会显着加快这个过程

最佳答案

如果您希望您的站点增长到大量用户，那么在 RAM 中缓存您的 friends 表不是一个可行的方法，但我确信它对少量用户非常有用。

以尽可能少的调用从数据库中获得最多的工作对您有利。发出大量查询是低效的，因为每个查询的开销相对较大。此外，数据库是为您要执行的任务类型而构建的。我认为您在 Ruby 方面做的工作太多了，您应该让数据库做它最擅长的工作。

你没有提供很多细节，所以我决定从定义一个最小模型数据库开始:

create table users (
  user_id int not null primary key,
  nick varchar(32)
  );

create table friends (
  user_id int not null,
  friend_id int not null,
  pending bool,
  primary key (user_id, friend_id),
  foreign key (user_id) references users(user_id),
  foreign key (friend_id) references users(user_id),
  check (user_id < friend_id)
  );

friends 上的check 约束避免了同一对用户以两种顺序列在表中，当然 PK 防止同一对用户被多次注册次序相同。 PK 还自动具有与之关联的唯一索引。

因为我假设“是……的 friend ”关系应该是逻辑对称的，所以定义一个呈现这种对称性的 View 很方便:

create view friends_symmetric (user_id, friend_id) as (
  select user_id, friend_id from friends where not pending
  union all
  select friend_id, user_id from friends where not pending
  );

(如果友谊不是对称的，那么您可以删除检查约束和 View ，并使用表friends 代替friends_symmetric以下内容。)

作为你想要对其结果进行排名的模型查询，那么，我采取这个:

select * from users where nick like 'Sat%';

目标是按每次命中与 User1(代表其运行查询的用户)共有的 friend 数的降序返回结果行。你可以这样做:

(更新:修改了这个查询以过滤掉重复的结果)

select *
from (
    select
      u.*,
      count(mutual.shared_friend_id) over (partition by u.user_id) as num_shared,
      row_number() over (partition by u.user_id) as copy_num
    from 
      users u
      left join (
          select
            f1.friend_id as shared_friend_id,
            f2.friend_id as friend_id
          from friends_symmetric f1
            join friends_symmetric f2
              on f1.friend_id = f2.user_id
          where f1.user_id = ?
            and f2.friend_id != f1.user_id
        ) mutual
        on u.user_id = mutual.friend_id
    where u.nick like 'Sat%'
  ) all_rows
where copy_num = 1
order by num_shared desc

其中 ? 是包含 User1 ID 的参数的占位符。

编辑添加:

我用窗口函数而不是聚合查询来构造这个查询，因为这样的结构对于查询规划器来说更容易优化。然而，内联 View “相互”可以改为构造为聚合查询，该查询计算搜索用户与每个共享至少一个 friend 的用户拥有的共享 friend 的数量，并且这将允许避免一级内联 View .如果所提供查询的性能不足或变得不足，则值得测试该变体。

还有其他方法可以解决在数据库中执行排序的问题，其中一些可能表现更好，并且可能有一些方法可以通过调整数据库(添加索引或约束、修改表定义)来提高每种方法的性能，计算数据库统计信息，...)。

我无法预测该查询是否会优于您现在正在执行的查询，但我向您保证它的扩展性更好，并且更易于维护。

关于sql - 尽管有缓存，搜索查询的性能还是被共同好友限制了 98%，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32485304/

27

4

0

文章推荐： javascript - 更改 HTML 表中的数据库值

文章推荐： ios - UIView Transform 属性倾斜一个圆给它一个 3D 外观

文章推荐： java - MySQL语法错误，逗号？ - java

java - JSR 107 - 缓存 (JCache) 与 CPU 缓存
我阅读了有关 JSR 107 缓存 (JCache) 的内容。我很困惑:据我所知，每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。那么，为什么我们需要 Java 缓存处理程序？ (如果C
jquery - 使用 jQuery 缓存，缓存 jQuery Sortable 对象
好吧，我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此，鉴于此链接:http://jqueryui.com/sortable/#dis
hibernate 缓存？
我正在使用 Struts 2 和 Hibernate。我有一个简单的表，其中包含一个日期字段，用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。我遇到的问题是hibernate更
缓存-修复浏览器本地缓存页面
我有点不确定这里发生了什么，但是我试图解释正在发生的事情，也许一旦我弄清楚我到底在问什么，就可能写一个更好的问题。我刚刚安装了Varnish，对于我的请求时间来说似乎很棒。这是一个Magneto 2
haskell 缓存
解决 Project Euler 的问题后，我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
Python包代理/缓存
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发，作者推荐 devpi，请参见此处:https://bitbuc
缓存 WebSocket
我想到的一个问题是可以从一开始就缓存网络套接字吗？在我的拓扑中，我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
Linux内存管理(缓存)
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里？它们之间的主要区别是什么？据我了解，页面缓存是主内存的一部分，用于存储从 I/O 设备获取的
LeetCode_数据结构设计_困难_460. LFU 缓存
1.题目请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
LeetCode_数据结构设计_中等_146. LRU 缓存
1.题目请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： ① LRUCache(int capacity) 以正整数作为容量 capacity
Django 缓存 - 删除某些页面的缓存
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
WiX ExePackage 缓存
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
Docker 缓存，它是如何工作的？
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户，并且每个人都在运行相同的 Dockerfile，但将镜像存储为 user1_myapp . user2 将其存储为 use
Codeigniter - 缓存 - 服务器？
在 Codeigniter 中没有出现缓存问题几年后，我发现了一个问题。我在其他地方看到过该问题，但没有适合我的解决方案。例如，如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
caching - Janusgraph 缓存
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存，我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。如果我只对例如进行读取
javascript - 有没有办法从终端重新启动无效/缓存？
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。谢谢! 最佳答案 According to a JetBrains employe
python - 带有默认可选参数的内存/缓存
我想制作一个 python 装饰器来内存函数。例如，如果 @memoization_decorator def add(a, b, negative=False): print "Com
jquery - 缓存 $(this) 是否会带来性能提升？
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数，我的代码会获得任何显着的额外性能吗？
使用模式匹配禁止 Varnish 缓存
是的，我要说实话，我不知道varnish vcl，我可以解决一些基本问题，但是我不太清楚，这就是为什么我遇到问题了。我正在尝试通过http请求设置缓存禁止，但是该请求不能通过DNS而是通过 Varn
Varnish 缓存-无法处理4000个并发用户
在 WP 站点上加载约 4000 个并发用户时遇到此问题。这是我的配置: F5 负载均衡器 ---> Varnish 4，8 核，32 Gb RAM ---> 9 个后端，4 个核，每个 16 RA

首页

博学

6Ren·AI

商城

sql - 尽管有缓存，搜索查询的性能还是被共同好友限制了 98%