gpt4 book ai didi

mysql - Sphinx vs. MySql - 搜索好友列表(效率/速度)

转载 作者:IT老高 更新时间:2023-10-29 00:03:44 26 4
gpt4 key购买 nike

我正在将我的应用程序搜索从 MySQL 移植到 Sphinx,我很难弄清楚这个,或者它是否需要移植(我真的想知道是否值得为这个特定的使用 sphinx效率/速度案例):

users
uid uname
1 alex
2 barry
3 david

friends
uid | fid
1 2
2 1
1 3
3 1

详情如下:
- InnoDB
- users: 索引在 uid 上,索引在 uname 上
- friends: uid,fid 的联合索引

通常情况下,用mysql搜索alex的所有好友:

$uid = 1
$searchstr = "%$friendSearch%";
$query = "SELECT f.fid, u.uname FROM friends f
JOIN users u ON f.fid=u.uid
WHERE f.uid=:uid AND u.uname LIKE :friendSearch";
$friends = $dbh->prepare($query);
$friends->bindParam(':uid', $uid, PDO::PARAM_INT);
$friends->bindParam(':friendSearch', $searchstr, PDO::PARAM_STR);
$friends->execute();

与 mysql 相比,使用 sphinx 查找 alex 的 friend 是否更有效,或者这会不会太过分了?
如果 sphinx 会更快,因为列表会影响到数千人,索引查询会是什么样子?我将如何删除 sphinx 不再存在的友谊,我可以在这种情况下提供详细的示例吗?我应该更改此查询以使用 Sphinx 吗?

最佳答案

好的,这就是我的工作方式。

我对 MongoDB 有完全相同的问题。 MongoDB“提供”搜索功能,但就像 MySQL 一样,您永远不应该使用它们,除非您想被 IO、CPU 和内存问题所困扰,并且被迫使用比平常更多的服务器来处理您的索引。

如果使用 Sphinx(或其他搜索技术),整个想法是通过拥有高性能索引搜索器来降低每台服务器的成本。

然而,Sphinx 不是存储引擎。查询跨表的确切关系并不那么简单,他们已经使用 SphinxQL 对此进行了一些修正,但由于全文索引的性质,它仍然不会像在 MySQL 中那样进行整体连接。

相反,我会将关系存储在 MySQL 中,但在 Sphinx 中有一个“用户”索引。

在我的网站中,我个人有 2 个索引:

  • main(包含用户、视频、 channel 和播放列表)
  • help(帮助系统搜索)

这些每分钟更新一次。由于实时索引有时仍处于实验阶段,而且我个人已经看到了高插入/删除率的问题,所以我一直使用增量更新。因此,我会使用增量索引来更新我网站的主要可搜索对象,因为与实时索引(来 self 自己的测试)相比,它占用的资源更少且性能更高。

请注意,为了通过 delta 处理删除以及不是您的 Sphinx 集合的内容,您将需要一个 killlist 和用于 delta 索引的某些过滤器。这是我的索引中的示例:

source main_delta : main
{
sql_query_pre = SET NAMES utf8
sql_query_pre =
sql_query = \
SELECT id, deleted, _id, uid, listing, title, description, category, tags, author_name, duration, rating, views, type, adult, videos, UNIX_TIMESTAMP(date_uploaded) AS date_uploaded \
FROM documents \
WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 ) OR update_time >( SELECT last_index_time FROM sph_counter WHERE counter_id=1 )

sql_query_killlist = SELECT id FROM documents WHERE update_time>=( SELECT last_index_time FROM sph_counter WHERE counter_id=1 ) OR deleted = 1
}

这每分钟处理一次删除和添加,这对于真正的网络应用程序来说几乎是实时的。

所以现在我们知道如何存储索引了。我需要谈谈关系。 Sphinx(即使它有 SphinxQL)不会跨数据进行积分连接,所以我个人建议在 Sphinx 之外进行关系,不仅如此,而且正如我所说,这个关系表会获得高负载,所以这可能会影响 sphinx 索引。

我会执行查询以挑选出所有 ID,并使用该组 ID 使用 sphinx API 上的“过滤器”方法将主索引过滤到特定文档 ID。一旦完成,您就可以像往常一样在 Sphinx 中搜索。这是迄今为止我发现的处理此问题的最有效方法。

始终要记住的关键是,Sphinx 是一种搜索技术,而 MySQL 是一种存储技术。请记住这一点,您应该没问题。

编辑

正如@N.B 所说(我在回答中忽略了这一点)Sphinx 确实有 SphinxSE。尽管它是原始的并且仍处于开发的测试阶段(与实时索引相同),但它确实为 Sphinx 提供了实际的 MyISAM/InnoDB 类型存储。这太棒了。但是有一些注意事项(与任何事情一样):

  • 语言是原始的
  • 连接是原始的

但是它可以/可以完成您正在寻找的工作,所以一定要调查一下。

关于mysql - Sphinx vs. MySql - 搜索好友列表(效率/速度),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11762147/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com