MySQL 最佳实践 : matching prefixes-6ren

MySQL 最佳实践 : matching prefixes

转载作者：可可西里更新时间：2023-11-01 07:06:35

26

4

我有一个包含代码的表格和另一个包含前缀的表格。我需要匹配每个代码的(最长)前缀。

还有一个次级范围，我必须在其中限制前缀(这涉及引入其他表)。我认为在大多数情况下这并不重要，但这里有一个简化的(规范化的)方案(我必须设置 item.prefix_id):

group (id)
subgroup (id, group_id)
prefix (id, subgroup_id, prefix)
item (id, group_id, code, prefix_id)

把前缀的长度缓存在一个新的字段中索引就可以了。可以将 group_id 缓存在前缀表中(尽管组是相当小的表，但在大多数情况下我认为不会获得任何性能提升)。 item 表包含几十万条记录，前缀最多包含 500。

编辑:

抱歉，如果问题定义不够。当使用“前缀”这个词时，我是认真的，所以代码必须以实际的前缀开头。

subgroup
id   group_id
-------------
1    1
2    1
3    1
4    2

prefix
id   subgroup_id  prefix
------------------------
1    1            a
2    2            abc
3    2            123
4    4            abcdef

item
id   group_id     code    prefix_id
-----------------------------------
1    1            abc123  NULL
2    1            abcdef  NULL
3    1            a123    NULL
4    2            abc123  NULL

前缀列的预期结果是 (item.id, item.prefix_id):

(1, 2) 因为:子组 1、2、3 在组 1 下，代码 abc123 以前缀 a 和前缀 开头abc 和abc 是两者的logest，所以我们取abc 的id 为2 放入item.prefix_id.

(2, 2) 因为:即使前缀 {4}(即 abcdef)是最匹配的前缀，它的子组(即 4)在组 2 下，但项目在第 1 组，因此我们可以从子组 1、2、3 中进行选择，abc 仍然是三个可能前缀中最匹配的。

(3, 1) 因为:a 是最匹配的。

(4, NULL) 因为:第 4 项在组 2 下，组 2 下唯一的前缀是 abcdef，它与 abc123 不匹配(因为 abc123 不以 abcdef 开头。

但正如我所说，整个摸索过程不是问题的本质部分。我主要关心的是将具有可能前缀的表与字符串表匹配，以及如何以最佳方式进行匹配。 (最好的意思是可读性、可维护性和性能之间的最佳权衡 - 因此标题中的“最佳实践”)。

目前我正在做类似的事情:

UPDATE item USE INDEX (code3)
    LEFT JOIN prefix ON prefix.length=3 AND LEFT(item.code,3)=prefix.prefix
    LEFT JOIN subgroup ON subgroup.id=prefix.subgroup_id
WHERE subgroup.group_id == item.group_id AND
    item.segment_id IS NULL

其中 code3 是一个 KEY code3 (segment_id, group_id, code(3))。 - 相同的逻辑以 1、2、3 和 4 作为长度重复。它看起来非常有效，但我不喜欢其中存在重复(单个操作有 4 个查询)。 - 当然，这是在前缀的最大长度为 4 的情况下。

到目前为止，感谢大家分享您的想法。

最佳答案

It is allright to cache the group_id in prefix table.

所以让我们在表 prefix 中创建列 group_id 并用适当的值填充该列。我假设您知道如何执行此操作，所以让我们进入下一步。

我们将从这个复合索引中获得的最大性能优势:

ALTER TABLE `prefix` ADD INDEX `c_index` (
    `group_id` ASC, 
    `prefix` ASC
);

UPDATE 语句:

UPDATE item i
SET 
    prefix_id = (
        SELECT p.id
        FROM prefix p USE INDEX (`c_index`)
        WHERE 
            p.group_id = i.group_id AND 
            p.prefix IN (
                LEFT(i.code, 4), 
                LEFT(i.code, 3), 
                LEFT(i.code, 2), 
                LEFT(i.code, 1)
            )                
        ORDER BY LENGTH(p.prefix) DESC
        LIMIT 1        
    )

在这个例子中，我假设前缀是可变长度的 {1,4}。我决定一起使用 IN 子句而不是 LIKE 来获得 c_index 的全部好处。

关于MySQL 最佳实践 : matching prefixes，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6580227/

26

4

0

文章推荐： mysql - 计算MySQL中随时间增加或减少的趋势

文章推荐： mySql:计算列中具有相同数据的行数

文章推荐： Swift - 打印时来自组件的日期不正确。日期有 2 个值？

理论+实践，带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
理论+实践，带你掌握动态规划法
本文分享自华为云社区《五大基础算法--动态规划法》，作者：大金（内蒙的）。一、基本概念动态规划法，和分治法极其相似。区别就是，在求解子问题时，会保存该子问题的解，后面的子问题求解时，可以直接拿来
python 调用scp命令实践
pip install scp pip install pexpect 测试代码： import os import stat import paramiko # 用于调用scp命令 def s
用于验证资源的 REST 实践
我目前正在实现“ token ”REST 服务。 token 只是一个字符串，由一些参数构建而成，然后经过哈希处理并在一定时间后过期。我想在我的 REST 服务中有一个可以验证 token 的端点，
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Java XML 实践
我有一个应用程序，每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。我应该为每个天气通知创建一个新的 XML 文件，还是将每个通知附加到同一个 XML 文件中？我不确定 XML 标准的
c# - 封装谓词的模式/实践
我猜我们大多数人都必须在某个时候处理这个问题，所以我想我会问这个问题。当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时，显然有必要进行封装，但实现封装的最佳方
正确的面向对象技术的 c# 实践
我有一些 c# 代码已经运行了一段时间了..我不得不说，虽然我了解 OO 原则的基础知识，但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。因此，我有一个基本抽象类作为基本数据服务类，如下所
持久化引用和删除引用对象的 SQL 实践
我设计了一个 SQL 数据库系统(使用 Postgre)，我有一个问题，即创建一个关系/引用的常见做法是什么，这种关系/引用即使在引用的对象被删除时也能持续存在。比如有一个UserORM，还有Act
Python Lambda 实践
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里，有什么帮助吗？ def numVowels(s): vowels= "AEIOUaeiou" if s
c++ - 原地轮换C++实践
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它，除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减，而不是从数组中获取值。我需要通过这种方
ios - appDelegate 实践
我有一个 json 存储在我的应用程序文档文件夹中，我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到，我可以将
C++ 内存管理技术/实践
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。我过去常常使用 new () 创建对象，然后传递指针，虽然它可以工作，但调试起来很痛苦，人们看到代码时会用有趣的眼神看着我。我为它没有
c++ - 如何处理老年人糟糕的编码风格/实践？
已结束。这个问题是 off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic堆栈溢出。关闭 10 年前。 Improve thi
oop - 初学者的松散耦合和 OO 实践
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而，作为一个新手，几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。我或多或少地了解如何将字符串、整数和简单数据类型封
php - Codeigniter MVC 实践
我发现我需要编写大量重复代码，因为我无法从其他 Controller 调用函数。例如，这里新闻提要内容在我的代码中重复，我对一个 Controller 做一些特定的事情，然后需要像这样加载我的新闻提要
f# - 在F#中实现约束数字类型的习语/实践？
假设需要一种数字数据类型，其允许值在指定范围内。更具体地说，假设要定义一个整数类型，其最小值为0，最大值为5000。这种情况在很多情况下都会出现，例如在对数据库数据类型，XSD数据类型进行建模时。在
javascript - 迭代整个数组的标准 JavaScript 实践？
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗？例如: var myArray = ["app
Breeze 内存管理 - 模式/实践？
我有一个旧的 SL4/ria 应用程序，我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外，还有很多

首页

博学

6Ren·AI

商城

MySQL 最佳实践 : matching prefixes