Mysql分区查询性能-6ren

Mysql分区查询性能

转载作者：行者123 更新时间：2023-12-04 04:22:36

25

4

我已经在定价表上创建了分区。下面是更改语句。

ALTER TABLE `price_tbl` 
PARTITION BY HASH(man_code)
PARTITIONS 87;

一个分区包含435510条记录。 price_tbl 中的总记录数为 600 万。

EXPLAIN query showing only one partion is used for the query。查询仍然需要 3-4 秒 来执行。下面是查询

 EXPLAIN SELECT vrimg.image_cap_id,vm.man_name,vr.range_code,vr.range_name,vr.range_url, MIN(`finance_rental`) AS from_price, vd.der_id AS vehicle_id FROM `range_tbl` vr 
    LEFT JOIN `image_tbl` vrimg ON vr.man_code = vrimg.man_code AND vr.type_id = vrimg.type_id AND vr.range_code = vrimg.range_code 
    LEFT JOIN `manufacturer_tbl` vm ON vr.man_code = vm.man_code AND vr.type_id = vm.type_id 
    LEFT JOIN `derivative_tbl` vd ON vd.man_code=vm.man_code AND vd.type_id = vr.type_id AND vd.range_code=vr.range_code 
    LEFT JOIN `price_tbl` vp ON vp.vehicle_id = vd.der_id AND vd.type_id = vp.type_id AND vp.product_type_id=1 AND vp.maintenance_flag='N'  AND vp.man_code=164 
    AND vp.initial_rentals_id =(SELECT rental_id FROM `rentals_tbl` WHERE rental_months='9') 
    AND vp.annual_mileage_id =(SELECT annual_mileage_id FROM `mileage_tbl` WHERE annual_mileage='8000') 
    WHERE vr.type_id = 1 AND vm.man_url = 'audi' AND vd.type_id IS NOT NULL GROUP BY vd.der_id

EXPLAIN 的结果。

没有分区的相同查询需要 3-4 秒。分区查询需要 2-3 秒。

我们如何提高查询性能，因为它太慢了。

附上创建表结构

价格表 - 包含 600 万条记录

CREATE TABLE `price_tbl` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `lender_id` bigint(20) DEFAULT NULL,
  `type_id` bigint(20) NOT NULL,
  `man_code` bigint(20) NOT NULL,
  `vehicle_id` bigint(20) DEFAULT NULL,
  `product_type_id` bigint(20) DEFAULT NULL,
  `initial_rentals_id` bigint(20) DEFAULT NULL,
  `term_id` bigint(20) DEFAULT NULL,
  `annual_mileage_id` bigint(20) DEFAULT NULL,
  `ref` varchar(255) DEFAULT NULL,
  `maintenance_flag` enum('Y','N') DEFAULT NULL,
  `finance_rental` decimal(20,2) DEFAULT NULL,
  `monthly_rental` decimal(20,2) DEFAULT NULL,
  `maintenance_payment` decimal(20,2) DEFAULT NULL,
  `initial_payment` decimal(20,2) DEFAULT NULL,
  `doc_fee` varchar(20) DEFAULT NULL,
  PRIMARY KEY (`id`,`type_id`,`man_code`),
  KEY `type_id` (`type_id`),
  KEY `vehicle_id` (`vehicle_id`),
  KEY `term_id` (`term_id`),
  KEY `product_type_id` (`product_type_id`),
  KEY `finance_rental` (`finance_rental`),
  KEY `type_id_2` (`type_id`,`vehicle_id`),
  KEY `maintenanace_idx` (`maintenance_flag`),
  KEY `lender_idx` (`lender_id`),
  KEY `initial_idx` (`initial_rentals_id`),
  KEY `man_code_idx` (`man_code`)
) ENGINE=InnoDB AUTO_INCREMENT=5830708 DEFAULT CHARSET=latin1
/*!50100 PARTITION BY HASH (man_code)
PARTITIONS 87 */

派生表 - 这包含 18k 条记录。

CREATE TABLE `derivative_tbl` (
  `type_id` bigint(20) DEFAULT NULL,
  `der_cap_code` varchar(20) DEFAULT NULL,
  `der_id` bigint(20) DEFAULT NULL,
  `body_style_id` bigint(20) DEFAULT NULL,
  `fuel_type_id` bigint(20) DEFAULT NULL,
  `trans_id` bigint(20) DEFAULT NULL,
  `man_code` bigint(20) DEFAULT NULL,
  `range_code` bigint(20) DEFAULT NULL,
  `model_code` bigint(20) DEFAULT NULL,
  `der_name` varchar(255) DEFAULT NULL,
  `der_url` varchar(255) DEFAULT NULL,
  `der_intro_year` date DEFAULT NULL,
  `der_disc_year` date DEFAULT NULL,
  `der_last_spec_date` date DEFAULT NULL,
  KEY `der_id` (`der_id`),
  KEY `type_id` (`type_id`),
  KEY `man_code` (`man_code`),
  KEY `range_code` (`range_code`),
  KEY `model_code` (`model_code`),
  KEY `body_idx` (`body_style_id`),
  KEY `capcodeidx` (`der_cap_code`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1

范围表 - 这包含 1k 条记录

CREATE TABLE `range_tbl` (
  `type_id` bigint(20) DEFAULT NULL,
  `man_code` bigint(20) DEFAULT NULL,
  `range_code` bigint(20) DEFAULT NULL,
  `range_name` varchar(255) DEFAULT NULL,
  `range_url` varchar(255) DEFAULT NULL,
  KEY `range_code` (`range_code`),
  KEY `type_id` (`type_id`),
  KEY `man_code` (`man_code`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1

最佳答案

如果您希望提高性能，

PARTITION BY HASH 基本上是无用的。 BY RANGE 在少数用例中很有用_。

在大多数情况下，索引的改进与尝试使用分区一样好。

一些可能的问题:

InnoDB 表没有明确的 PRIMARY KEY。添加自然 PK(如果适用)，否则添加 AUTO_INCREMENT。
没有“复合”索引——它们通常可以提高性能。示例:vr 和vrimg 之间的LEFT JOIN 涉及3 列； “右”表中这 3 列的复合索引可能有助于提高性能。
盲目使用 BIGINT 而较小的数据类型可以工作。 (当表很大时，这是一个 I/O 问题。)
在 VARCHAR 中盲目使用 255。
考虑是否大多数列都应该是NOT NULL。
该查询可能是“爆炸-内爆”综合症的受害者。这是您执行 JOIN(s) 的地方，它创建一个大的中间表，然后是 GROUP BY 以减少行数。
不要使用 LEFT 除非“右”表确实是可选的。 (我看到 LEFT JOIN vd ... vd.type_id IS NOT NULL。)
不要规范化“连续”值(annual_mileage 和 rental_months)。它对“=”测试并没有真正的好处，而且会严重损害“范围”测试的性能。

Same query without partitioning takes 3-4 sec. Query with partitioning takes 2-3 sec.

在分区和非分区之间切换时，索引几乎总是需要更改。对于每种情况的最佳索引，我预测性能将接近相同。

索引

无论是否分区，这些都应该有助于提高性能:

vm:     (man_url)
vr:     (man_code, type_id)  -- either order
vd:     (man_code, type_id, range_code, der_id)
              -- `der_id` 4th, else in any order (covering)
vrimg:  (man_code, type_id, range_code, image_cap_id)
              -- `image_cap_id` 4th, else in any order (covering)
vp:     (type_id, der_id, product_type_id, maintenance_flag,
         initial_rentals, annual_mileage, man_code)
             -- any order (covering)

“覆盖”索引是一个额外的提升，因为它可以在索引的 BTree 中完成所有工作，而无需触及数据的 BTree。

实现我推荐的一系列内容，然后返回(在另一个问题中)进行进一步调整。

通常“分区键”应该放在复合索引的最后。

关于Mysql分区查询性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58747820/

25

4

0

文章推荐： raspberry-pi - 为什么 Gamepad.GetCurrentReading() 不起作用？

文章推荐： cassandra - Cassandra 中的自读一致性

Neo4j 分区
是一种在 Neo4j 分区之间进行物理分离的方法吗？这意味着以下查询将转到 node1: Match (a:User:Facebook) 虽然此查询将转到另一个节点(可能托管在 docker 上)
非企业服务器上的 SQL 分区？
我尝试在我的 SQL 服务器上使用分区函数对我的一个大表进行分区，但我收到一条错误消息 “只能在SQL Server企业版中创建分区功能。只有SQL Server企业版支持分区。” 所以我想知道没有企
hadoop - hadoop中的文件拆分/分区
在hadoop文件系统中，我有两个文件，分别是X和Y。通常，hadoop制作的文件X和Y的大小为64 MB。是否可以强制hadoop划分两个文件，以便从X的32 MB和Y的32 MB中创建一个64 M
组合键的 Cassandra 分区
据我了解，如果我们有一个主键，则使用该键对数据进行分区并将其存储在节点中(例如使用随机分区器)。现在我不确定的是，如果我有多个键(又名复合键)，是用于分区数据的键的组合还是它将是第一个主键？例如，
SSAS 分区，多少太多了
我正在向我的 SSAS 多维数据集添加分区，我想知道是否有多个分区可以保留在下面？多少太多了，最佳实践限制是 20 还是 200？有没有人可以分享任何真实世界的知识？最佳答案这是 another
MySQL 分区 - 主键和唯一记录的错误
我有一个包含大约 200 万条记录的大表，我想对其进行分区。我将 id 列设置为 PRIMARY AUTO_INCRMENT int (并且它必须始终是唯一的)。我有一列“theyear”int(4
Mysql 分区 - 如何对包含唯一列的表进行列表分区？
我正在做 mysql 列表分区。我的表数据如下 ---------------------------------------- id | unique_token | city | student_
具有大量插入和删除的表的 MySQL 分区
我有一个表，我们每天在其中插入大约 2000 万个条目(没有任何限制的盲插入)。我们有两个外键，其中一个是对包含大约 1000 万个条目的表的引用 ID。我打算删除此表中超过一个月的所有数据，因为不
真实示例中的 MySQL 分区
我想在一款足球奇幻游戏中尝试使用 MySQL Partitioning，该游戏的用户分布在联赛中，每个联赛都有一个用户可以买卖球员的市场。当很多用户同时玩时，我在这张表中遇到了一些僵局(在撰写本文时大
带有变量的 jQuery 分区
我是 jQuery 的新手，想知道是否可以获取一些变量并将它们的除法作为 CSS 宽度。到目前为止我在这里: var x = $(".some-container").length; var y =
c++ - 分区、斯特林数和第一个切比雪夫多项式的递归函数
所以我正在做家庭作业，我需要为分区、斯特林数(第一类和第二类)和第一类的切比雪夫多项式创建递归函数。我的程序应该能够让用户输入一个正整数 n，然后创建名为 Partitions.txt、Stirlin
python - 分区(如果适用)
我在数据框中有一列，其中包含大约 1,4M 行聊天对话，其中每个单元格中的一般格式为 (1): “名称代理 : 对话” 但是，并非列中的所有单元格都采用这种格式。有些单元格只是 (2): “对话” 我
html - "Collapsible"<分区>
我在尝试隐藏 a 时遇到了一些问题，直到用户单击某个元素为止。 HTML 看起来像: BRAND item 1 item 2 item 3
【kafka】-分区-消费端负载均衡
一.为什么kafka要做分区？因为当一台机器有可能扛不住（类比：就像redis集群中的redis-cluster一样，一个master抗不住写，那么就多个master去抗写）
postgresql - 分区(和拆分)值以填充槽
我有一些销售数据，我需要发送存储在单独表中的可用槽中的数量。销售数据示例: id数量112131415369 create table sales (id serial primary key, q
GlusterFS - 为什么不推荐使用 root 分区？
我计划设置多个节点以使用 glusterfs 创建分布式复制卷我使用主(也是唯一)分区上的目录在两个节点上创建了一个 gluster 复制卷。 gluster volume create vol_d
sql - 在窗口函数内过滤(通过...分区)？
我正在尝试使用 sum() over (partition by) 但在总和中过滤。我的用例是将每个产品的 12 个月累计到一个月的条目，因此: ITEM MONTH SALES Item
scala - 如何从单个枚举器中生成多个枚举器(分区、拆分、..)
是否可以创建多个 Enumerators出单Enumerator ? 我正在寻找的相当于 List.partition返回 (List[A], List[A]) ，比如 List().partitio
Yocto - 创建并填充一个单独的/home 分区
我正在创建一个基于 x86 的非常简单的 Yocto 图像。我希望/文件系统是只读的，所以我设置了 IMAGE_FEATURES_append = " read-only-rootfs " 在原件的
list - Scala 分区/收集用法
是否可以使用一次 collect 调用来创建 2 个新列表？如果没有，我该如何使用分区来做到这一点？最佳答案 collect(在TraversableLike上定义并在所有子类中可用)与集合和Par

首页

博学

6Ren·AI

商城

Mysql分区查询性能