- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个包含代码的表格和另一个包含前缀的表格。我需要匹配每个代码的(最长)前缀。
还有一个次级范围,我必须在其中限制前缀(这涉及引入其他表)。我认为在大多数情况下这并不重要,但这里有一个简化的(规范化的)方案(我必须设置 item.prefix_id):
group (id)
subgroup (id, group_id)
prefix (id, subgroup_id, prefix)
item (id, group_id, code, prefix_id)
把前缀的长度缓存在一个新的字段中索引就可以了。可以将 group_id 缓存在前缀表中(尽管组是相当小的表,但在大多数情况下我认为不会获得任何性能提升)。 item 表包含几十万条记录,前缀最多包含 500。
编辑:
抱歉,如果问题定义不够。当使用“前缀”这个词时,我是认真的,所以代码必须以实际的前缀开头。
subgroup
id group_id
-------------
1 1
2 1
3 1
4 2
prefix
id subgroup_id prefix
------------------------
1 1 a
2 2 abc
3 2 123
4 4 abcdef
item
id group_id code prefix_id
-----------------------------------
1 1 abc123 NULL
2 1 abcdef NULL
3 1 a123 NULL
4 2 abc123 NULL
前缀列的预期结果是 (item.id, item.prefix_id):
(1, 2) 因为:子组 1、2、3 在组 1 下,代码 abc123
以前缀 a
和前缀 开头abc
和abc
是两者的logest,所以我们取abc
的id 为2 放入item.prefix_id
.
(2, 2) 因为:即使前缀 {4}(即 abcdef
)是最匹配的前缀,它的子组(即 4)在组 2 下,但项目在第 1 组,因此我们可以从子组 1、2、3 中进行选择,abc
仍然是三个可能前缀中最匹配的。
(3, 1) 因为:a
是最匹配的。
(4, NULL) 因为:第 4 项在组 2 下,组 2 下唯一的前缀是 abcdef
,它与 abc123
不匹配(因为 abc123
不以 abcdef
开头。
但正如我所说,整个摸索过程不是问题的本质部分。我主要关心的是将具有可能前缀的表与字符串表匹配,以及如何以最佳方式进行匹配。 (最好的意思是可读性、可维护性和性能之间的最佳权衡 - 因此标题中的“最佳实践”)。
目前我正在做类似的事情:
UPDATE item USE INDEX (code3)
LEFT JOIN prefix ON prefix.length=3 AND LEFT(item.code,3)=prefix.prefix
LEFT JOIN subgroup ON subgroup.id=prefix.subgroup_id
WHERE subgroup.group_id == item.group_id AND
item.segment_id IS NULL
其中 code3
是一个 KEY code3 (segment_id, group_id, code(3))
。 - 相同的逻辑以 1、2、3 和 4 作为长度重复。它看起来非常有效,但我不喜欢其中存在重复(单个操作有 4 个查询)。 - 当然,这是在前缀的最大长度为 4 的情况下。
到目前为止,感谢大家分享您的想法。
最佳答案
It is allright to cache the group_id in prefix table.
所以让我们在表 prefix 中创建列 group_id
并用适当的值填充该列。我假设您知道如何执行此操作,所以让我们进入下一步。
我们将从这个复合索引中获得的最大性能优势:
ALTER TABLE `prefix` ADD INDEX `c_index` (
`group_id` ASC,
`prefix` ASC
);
UPDATE 语句:
UPDATE item i
SET
prefix_id = (
SELECT p.id
FROM prefix p USE INDEX (`c_index`)
WHERE
p.group_id = i.group_id AND
p.prefix IN (
LEFT(i.code, 4),
LEFT(i.code, 3),
LEFT(i.code, 2),
LEFT(i.code, 1)
)
ORDER BY LENGTH(p.prefix) DESC
LIMIT 1
)
在这个例子中,我假设前缀是可变长度的 {1,4}。我决定一起使用 IN 子句而不是 LIKE 来获得 c_index 的全部好处。
关于MySQL 最佳实践 : matching prefixes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6580227/
本文分享自华为云社区《大模型LLM之分布式训练》,作者: 码上开花_Lancer。 随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
本文分享自华为云社区《五大基础算法--动态规划法》,作者: 大金(内蒙的)。 一、基本概念 动态规划法,和分治法极其相似。区别就是,在求解子问题时,会保存该子问题的解,后面的子问题求解时,可以直接拿来
pip install scp pip install pexpect 测试代码: import os import stat import paramiko # 用于调用scp命令 def s
我目前正在实现“ token ”REST 服务。 token 只是一个字符串,由一些参数构建而成,然后经过哈希处理并在一定时间后过期。 我想在我的 REST 服务中有一个可以验证 token 的端点,
打开软删除后,我在客户端上添加一条记录,推送,删除添加的记录推送,然后尝试使用与初始记录相同的主键添加新记录(然后推送),我得到一个异常(exception)。 EntityDomainManager
打开软删除后,我在客户端上添加一条记录,推送,删除添加的记录推送,然后尝试使用与初始记录相同的主键添加新记录(然后推送),我得到一个异常(exception)。 EntityDomainManager
我有一个应用程序,每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。 我应该为每个天气通知创建一个新的 XML 文件,还是将每个通知附加到同一个 XML 文件中?我不确定 XML 标准的
我猜我们大多数人都必须在某个时候处理这个问题,所以我想我会问这个问题。 当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时,显然有必要进行封装,但实现封装的最佳方
我有一些 c# 代码已经运行了一段时间了..我不得不说,虽然我了解 OO 原则的基础知识,但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。 因此,我有一个基本抽象类作为基本数据服务类,如下所
我设计了一个 SQL 数据库系统(使用 Postgre),我有一个问题,即创建一个关系/引用的常见做法是什么,这种关系/引用即使在引用的对象被删除时也能持续存在。 比如有一个UserORM,还有Act
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里,有什么帮助吗? def numVowels(s): vowels= "AEIOUaeiou" if s
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它,除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减,而不是从数组中获取值。我需要通过这种方
我有一个 json 存储在我的应用程序文档文件夹中,我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到,我可以将
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。 我过去常常使用 new () 创建对象,然后传递指针,虽然它可以工作,但调试起来很痛苦,人们看到代码时会用有趣的眼神看着我。我为它没有
已结束。 这个问题是 off-topic .它目前不接受答案。 想要改进这个问题? Update the question所以它是on-topic堆栈溢出。 关闭 10 年前。 Improve thi
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而,作为一个新手,几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。 我或多或少地了解如何将字符串、整数和简单数据类型封
我发现我需要编写大量重复代码,因为我无法从其他 Controller 调用函数。例如,这里新闻提要内容在我的代码中重复,我对一个 Controller 做一些特定的事情,然后需要像这样加载我的新闻提要
假设需要一种数字数据类型,其允许值在指定范围内。更具体地说,假设要定义一个整数类型,其最小值为0,最大值为5000。这种情况在很多情况下都会出现,例如在对数据库数据类型,XSD数据类型进行建模时。 在
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗? 例如: var myArray = ["app
我有一个旧的 SL4/ria 应用程序,我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外,还有很多
我是一名优秀的程序员,十分优秀!