mysql - 如何通过标签搜索数十亿个项目(寻找最佳架构)？-6ren

mysql - 如何通过标签搜索数十亿个项目(寻找最佳架构)？

转载作者：行者123 更新时间：2023-11-29 11:17:26

29

4

我有一个巨大的项目数据库，有数十亿条条目:

t_item

itemId ...

每个项目都标有多个标签:

t_tag

tagId tagName

t_item_tag

itemTagId [AI] itemId tagId

最终用户的用例场景很简单:

Select all items marked with particular tags and sort them by some attribute. E.g.:

select all laptops (tag) with Core i7 processor (another tag) and sort them by rating (t_item table);

select all yellow (tag) bags (tag) made of leather (tag) and sort them by price (t_item table).

目前我正在 MySQL 之上运行该系统，但它开始达到极限。主要关心的是最终排序是使用temporary进行的；使用文件排序有点慢。

我还可以采用哪些其他架构来处理我的用例和卷？

最佳答案

“使用 temp；使用 filesort”不是坏人，架构和索引才是。

这对于标签来说是最佳的:

CREATE TABLE Tags (
    item_id ...,
    tag ... -- either a string or a tag_id, it does not matter much,
    PRIMARY KEY(tag, item_id),  -- for clustering and searching
    INDEX(item_id)  -- for maintenance (eg deleting an item_id)
    -- no FOREIGN KEYs; they slow things down
    -- no AUTO_INCREMENT; it is a total waste here
) ENGINE=InnoDB; -- so PK will be clustered.

因此，即使有数十亿行，这样的表也将非常有效地访问 - 所有“黄色”项目都将“聚集”并且需要很少的磁盘命中。

(您建议了 tag_id 和另一个表格。我认为这是一个关于这是否更好的折腾。)

计算磁盘命中率——它们是大型表的主要性能指标。

对于，选择所有配备 Core i7 处理器(另一个标签)的笔记本电脑(标签)，并按评级对它们进行排序(t_item 表)； --

SELECT i.id
    FROM Items AS i
    JOIN Tags  AS t1  ON t1.item_id = i.id
    JOIN Tags  AS t2  ON t2.item_id = i.id
    WHERE t1.tag = 'laptops'
      AND t2.tag = 'Core i7 processor'
    ORDER BY i.rating DESC
    LIMIT 10;

如果有 2000 台“笔记本电脑”，则可能有 20 个磁盘 block (算作 20 个磁盘命中)。 150“酷睿 i7 处理器”可能会增加 2 次磁盘命中。如果这些导致 70 个“项目”，那么您会再获得 70 次磁盘命中，因为它们很可能是随机定位的。是的，将会有一个临时表(在 RAM 中)和一个文件排序(但没有物理"file")来对 70 个 id 进行排序并交付 10 个。

是的，您必须动态构造此 SELECT。

出于几个原因，我突然停止了(仅获取 i.id)...

Items 中还有什么？一些大的 TEXT 列(description 等)？他们很讨厌；他们使工作变得困惑。

我们的愿望是说 SELECT i.* 而不是 SELECT i.id。让我们看看是否可以妥协。

假设您有INDEX(id, rating)。但是，有充分的理由制作一个仅包含 id 和 rating 的表格 - 您经常更改它，并且我们需要一个“小”表来查找并按评级对 70 个 ID 进行排序。

因此，我们有两个表:Items - id、描述等，以及Ratings，其中:

CREATE TABLE Ratings (
    item_id -- 1:1 with `Items.id`
    rating ...,
    PRIMARY KEY(id)
) ENGINE=InnoDB;

现在，将我的第一个查询更改为 FROM Ratings(而不是 FROM Items)。现在，我们仍然需要从该表中获取 70 行，但由于它更小，缓存的可能性更大，因此它可能涉及不到 70 次磁盘命中。

然后，我们需要从 Items 中仅最终获取 10 个大件东西。

总计:20+2+70+10 = 102 次磁盘命中，或者在普通旧旋转驱动器上大约 1 秒；在 SSD 上速度要快得多。 (另外希望最大的数字 70 会更低。)

回到文件排序...由于只有“小”列(id、评级)并且只有 70 个“行”需要排序，文件排序将成为内存中结构，几乎不需要时间来执行。这就是为什么我说忽略文件排序。通过安排稍后获取庞大的描述，我避免了通过 filsort 拖拽它，这几乎肯定会强制 tmp 表为 MyISAM，而不是 MEMORY。

既然您提到按评级或价格排序，也许这很好:

CREATE TABLE RatingsPrices (
    item_id ..., -- 1:1 with `Items.id`
    rating ...,
    price ...,
    INDEX(item_id, rating),  -- covering index for the main query
    INDEX(item_id, price),  -- covering index for the main query
) ENGINE=InnoDB;

可能还有更多细节和微妙之处，但我希望这些提示能让您朝着好的方向发展。

记住:如果数据集太大，甚至工作集都无法容纳在 RAM 中，请“计算磁盘命中次数”。

关于mysql - 如何通过标签搜索数十亿个项目(寻找最佳架构)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39494578/

29

4

0

文章推荐： MySQL - 按财政年度准确显示数据

文章推荐： python - MySQL python 设置错误

文章推荐： mysql - Laravel MySQL 仅在计划任务上出错(通过 cron)

Kubernetes 架构
是否可以简化在裸机上运行的这条链: 具有随时间变化的副本数的 StatefulSet 服务使用 proxy-next-upstream: "error http_502 timeout invali
Facebook 架构
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
MySQL产品存储-架构
我需要为应用程序制定架构。它专为销售产品而设计。系统每天将接受大约 30-40k 的新产品。它将导致在表 product 中创建新记录。系统应保留价格历史记录。用户应该能够看到产品 A 的价格在去
PHP 架构 : How do I do that?
我需要一些帮助来理解 PHP 的内部工作原理。还记得，在过去，我们曾经写过 TSR(Terminate and stay resident)例程(pre-windows 时代)吗？一旦该程序被执行，
让我一起浅析Nginx 架构
1.Nginx 基础架构 nginx 启动后以 daemon 形式在后台运行，后台进程包含一个 master 进程和多个 worker 进程。如下图所示： master与
K8s技术全景：架构、应用与优化
本文深入探讨了Kubernetes（K8s）的关键方面，包括其架构、容器编排、网络与存储管理、安全与合规、高可用性、灾难恢复以及监控与日志系统。关注【TechLeadCloud】，
tensorflow - 如何为任何通用数据集确定卷积神经网络的结构/架构？
我知道 CNN 的工作原理，包括每一层的用途(Dropout、Pooling 等)。但是，在为新数据集设计 CNN 时，我不知道要使用多少个 Conv-Relu-Pool 层，在最终获得输出之前我应该
REST 架构 - 资源和方法
在基于 REST 的架构中，资源和方法之间有什么区别。有吗？最佳答案资源是您的应用程序定义的东西；它们与物体非常相似。方法是 HTTP 动词之一，例如 GET、POST、PUT、DELETE。它们
Json 架构 "not in"枚举类型？
我想用 oneOf仅在 xyType 的值上不同的模式属性(property)。我想要其中两个:一个是 xyType设置为 "1"第二个在哪里xyType是任何其他值 .这可以使用 json 模式完
PHP 架构，以及按引用传递与按值传递
寻求 PHP 架构师的建议! 我对 PHP 不是很熟悉，但已经接管了一个用该语言编写的大型分析包的维护工作。该架构旨在将报告的数据读取到大型键/值数组中，这些数组通过各种解析模块传递，以提取每个模块已
JavaScript 架构/应用程序结构最佳实践？
这些存在吗？多年来，我一直是大型强类型面向对象语言(Java 和 C#)的奴隶，并且是 Martin Fowler 及其同类的信徒。 Javascript，由于它的松散类型和函数性质，似乎不适合我习
Lambda 架构 - 这个名字的由来是什么？
我已经阅读了 Manning 的 Big Data Lambda Architecture ( http://www.manning.com/marz/BD_meap_ch01.pdf )，但仍然无法
xcode - 高级应用程序设计/架构
在过去的几年里，我做了相当多的 iOS 开发，所以我非常熟悉 iOS 架构和应用程序设计(一切都是一个 ViewController，您可以将其推送、弹出或粘贴到选项卡栏中)。我最近开始探索正确的 M
javascript - AngularJS 架构
我有以下应用程序，我在其中循环一些数据并显示它。 {{thing.title}} {{thing.description}}
c# - 架构/设计模式问题
昨天我和我的伙伴讨论了我正在开发的这个电子购物网站的架构。请注意，我为此使用 ASP.NET。他非常惊讶地发现我没有将添加到购物车的项目保留在 ArrayList 或其他通用列表中，而是使用 LINQ
tridion - 隐藏继承的内容/架构
我正在使用在 tridion 蓝图层次结构中处于较低位置的出版物。从蓝图中较高级别的出版物继承的一些内容和模式不适合我的出版物，并且永远不会被我的出版物使用。我将跟进添加这些项目的内部团队，并尝试说
java - Cassandra 架构
我目前已经在 Cassandra 中设计了一个架构，但我想知道是否有更好的方法来做事情。基本上，问题在于大多数(如果不是全部)读取都是动态的。我构建了一个分段系统作为应用程序服务，读取动态自定义查询(
Icinga2 IDO 架构
我正在按照 documentation 中给出的 icingaweb UI v 2.0 布局执行在服务器上设置 icinga 的步骤。。我成功进入设置页面，该页面要求您输入 token ，然后按照步
java - Mongodb 架构
我必须保存来自不同社交媒体的用户的不同个人资料。例如用户可能有 1 个 Facebook 和 2 个 Twitter 个人资料。如果我保存每个配置文件它作为新文档插入不同的集合中，例如 faceboo
适用于多个应用程序的多个环境的 Puppet 架构
我的团队使用 Puppet 架构，该架构目前可在多个环境(流浪者、暂存、生产)中容纳单个应用程序。我们现在想要扩展此设置的范围以支持其他应用程序。他们中的许多人将使用我们已经定义的现有模块的子集，而

首页

博学

6Ren·AI

商城

mysql - 如何通过标签搜索数十亿个项目(寻找最佳架构)？