mysql - 为什么在MySQL中拆分表会使插入和查询变慢-6ren

mysql - 为什么在MySQL中拆分表会使插入和查询变慢

转载作者：行者123 更新时间：2023-11-29 06:47:56

我的目标是在一个MySQL表中保存大约6000万行用于高速读取，并且正确地继续插入。
对于产品设计来说，这6000万行自然可以分成3000块，所以我决定做一个表切分策略，把1-60M的表分成3000个表。
我取了300万数据进行以下测试：
一个表中有300万行：
然后，这300万个数据的平均插入时间是80秒，每1000个查询（每个查询从这300万个数据表中获取1000行）大约需要10秒。
300万行平均分为3000个表：
在3000个表中插入300万个数据：79秒（不是很快）；
平均每1000次查询3000个表（其中每个表有1000行）：120秒（比上面慢12倍）
为什么？虽然我有3000个表，但基本上都是MySQL管理的文件，每个查询只访问一个只有1000行的表，但为什么这么慢呢？
我在一台8核机器上运行，该机器配有15G RAM，配置如下：

open_files_limit 300000
table_open_cache 100000

经过2-3次的模拟重新尝试，我还搜索了MySQL的“打开的文件”，如下所示，这似乎可以为我的3000表设置？
打开的桌子：9463
我怎样才能摆脱这个问题？
-----------编辑和更多想法-----------
目前我只在尝试表分片的可能性，也许MySQL合并引擎可以在这个方向上帮一点忙。
另一方面，分区也不是个坏主意。。。以MySQL为例，按范围划分，我可以将范围设为1000万，然后60M表变成6个分区的表。。。查询和插入是否都更快？
-----------尝试表分区的更新-----------
正如下面的评论一样，我认为，表的分区也可以是一个很好的解决方案，尤其是当它保持相同的表名并且对现有代码影响最小的时候。
我试着在这个6000万的表上做6个分区；
1）一开始，我做了如下伪代码：

CREATE TABLE `datatable` (  
`id` int(11) NOT NULL AUTO_INCREMENT,  
`type` int(11) NOT NULL DEFAULT 0,  
`description` varchar(255),  
`datimeutc` datetime,  
`datimelocal` datetime,  
`value` double,  
PRIMARY KEY (`id`), 
KEY INDEX_TYPE ON (type)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1  
PARTITION BY RANGE (id) (  
    PARTITION p0 VALUES LESS THAN (10000000),  
    PARTITION p1 VALUES LESS THAN (20000000),  
    PARTITION p2 VALUES LESS THAN (30000000),  
    PARTITION p3 VALUES LESS THAN (40000000),  
    PARTITION p4 VALUES LESS THAN (50000000)  
    PARTITION p5 VALUES LESS THAN MAXVALUE
);

结果很好。导入300万数据进行测试大约需要1分钟，总共需要63分钟来导入所有6000万数据。
每个查询（从60米基于分区的表中获取20000行）的搜索时间约为90毫秒。对于一个6000万表，我没有任何关于查询性能的比较数据，但是90毫秒是一个合理的值吗？
2）我尝试了字段“type”上的分区，希望将传入的单个查询限制在单个分区上，因为MySQL对带分区的唯一键有限制，所以伪代码如下：

CREATE TABLE `datatable` (  
`id` int(11) NOT NULL AUTO_INCREMENT,  
`type` int(11) NOT NULL DEFAULT 0,  
`description` varchar(255),  
`datimeutc` datetime,  
`datimelocal` datetime,  
`value` double,   
KEY (`id`), 
KEY INDEX_TYPE ON (type)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1  
PARTITION BY RANGE (type) (  
    PARTITION p0 VALUES LESS THAN (500),  
    PARTITION p1 VALUES LESS THAN (1000),  
    PARTITION p2 VALUES LESS THAN (1500),  
    PARTITION p3 VALUES LESS THAN (2000),  
    PARTITION p4 VALUES LESS THAN (2500)  
    PARTITION p5 VALUES LESS THAN MAXVALUE
);

此时，当我插入60米数据时，与第一种情况相比，插入时间太长了。我还没有结果，但到目前为止，只插入400万数据已经花了3个小时。。。
为什么？
我在想，也许我是按顺序插入60米，即行Id从1开始到600万。所以在第一种情况下，我基本上打开并锁定第一个要插入的分区，一旦插入第一个10米，我打开第二个分区继续。
另一方面，在2）分区的情况下，我需要频繁地随机地打开所有6个分区（它们都是按“type”而不是“id”设计的），所以表的锁定和解锁花费了太多的时间？这可能是原因吗？

最佳答案

是的，在MySQL中拆分表对于以下场景是一种通用的好做法：
表太大，常规的表操作时间变得无法忍受（性能急剧下降）
表中热数据的百分比相对较小
数据上有一个时间窗口（数据可以及时存档或清除）
为了提高并发性，在这种情况下，数据通常分布在不同的独立物理服务器或不同的存储系统中
在你最初的文章中，我认为你主要关心第一个场景，所以让我们进一步讨论。
为什么当表很大时性能会急剧下降？尺寸界限是多少？都是关于记忆的。除非您购买了FusionIO或任何类型的SSD系统，否则当I/O命中磁盘时，总是会有一个陡峭的曲线。通常，SATA/SAS磁盘阵列只能执行大约50~200个随机IOPS（写缓存受BBU保护），与DDR的200000多个随机IOPS相比，这太慢了。当MySQL的变量被设置为一个合理的值并且表的大小不比缓存的大小大时，性能是相当好的，但是当表增长超过这个限制时，就会发生退化。因此，不要过度优化表结构，除非您知道它们将增长到多大，并测试了整个系统的极限。过早地拆分表不会显示出太多的优势，而且由于数据碎片化带来的其他副作用，性能甚至可能变得更差。
基准就像游戏，你知道，它们不能真正代表现实生活中的情况，所以我们需要规范游戏规则。我对my.cnf设置很好奇，特别是缓冲区变量，因为第一个场景的性能很大程度上取决于内存缓存和磁盘读/写策略。变量包括：
table_definition_cache：此变量指示内存中可以存储多少表元数据（对MyISAM来说，它们是.frm文件）。如果一个表被重复打开，它不会有帮助，但是如果有很多表需要打开（在您的例子中，是3000个表），如果这个缓存可以包含所有表的元数据，它会有帮助。
table_open_cache：这个变量指示MySQL可以在内存中保存多少内部表处理程序，就像上面一样，它将提高表上下文切换速度。
key_buffer_size：因为您使用的是MyISAM，所以这个变量在性能上会起到非常重要的作用。它设置MySQL可以分配给MyISAM表的最大内存空间大小，如果使用MyISAM，首选值将是系统内存的30%。我取30%的原因是有两个东西要缓存，一个是索引，另一个是行数据；key_buffer_size表示索引，OS负责行数据缓存（块I/O缓冲缓存）。为索引保留30%，为行数据保留50%，为表缓存、线程缓存、连接缓存等其他缓冲区缓存保留20%。看起来此变量不会同时降低这两种情况的速度，但谁知道，设置得太小可能会同时影响这两种情况，而多表的影响更大。
key_cache_block_size：这个变量设置缓存块的大小，这将浪费I/O（头/尾读）并导致读复写（先读后写）。多表方案可能会受到更多的影响，因为它有更多的表（文件）。
我还很好奇SQL查询是如何编写的，您使用了多少线程来读/写MySQL。例如，顺序写入一个表就像顺序写入，速度比随机写入快得多；顺序写入3000个表就像随机写入，速度可能不如随机写入。当创建3000个表时，有3000个.MYI文件和3000个.MYD文件，它们在磁盘上可能不连续（会发生随机I/O），但是1.MYI和1.MYD，它们很可能在磁盘上自己连续。这也适用于磁盘读取。但是在你的例子中，读比写慢得多，我想这可能是因为写是缓冲的，但是读不是，如果你是第一次选择行的话。当从一个表中读取时，MySQL可以将key_cache作为一个整体预加载一次，OS也可以预读取下一个块，因为它们是连续的；但是在多个表中，MySQL/OS不能作为一个整体预加载。如果可以尝试生成更多的客户端线程来发出查询，则这两种情况的性能可能会更接近。
关于您最近对分区的更新，我想您可能是对的，按“类型”分区听起来很像是随机I/O，当您批量插入哪些SQL数据是按主键排序的，而不是按“类型”排序的，外加子分区表处理程序开关。

关于mysql - 为什么在MySQL中拆分表会使插入和查询变慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17474678/

文章推荐： mysql - MySQL如何动态选择频率最高的名字

文章推荐： java - JSP 标签问题 - Java 代码作为值

文章推荐： java - 在哪里可以了解 Java 中的文本压缩？

文章推荐： mysql - 我们如何处理在表的所有记录中具有相同值的列？

Mysql 查询 JOIN 查询
我有三张 table 。表 A 有选项名称(即颜色、尺寸)。表 B 有选项值名称(即蓝色、红色、黑色等)。表C通过将选项名称id和选项名称值id放在一起来建立关系。我的查询需要显示值和选项的名称，而
查询
在mysql中，如何计算一行中的非空单元格？我只想计算某些列之间的单元格，比如第 3-10 列之间的单元格。不是所有的列...同样，仅在该行中。最佳答案如果你想这样做，只能在 sql 中使用名称而
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
elasticsearch - 在Elasticsearch查询中没有为[查询]注册的[查询]
我正在为版本7.6进行Elasticsearch查询我的查询是这样的: { "query": { "bool": { "should": [ {
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
php - Mysql WHERE NOT EXISTS(查询)OR(查询)
是否可以编写一个查询来检查任一子查询(而不是一个子查询)是否正确？ SELECT * FROM employees e WHERE NOT EXISTS (
javascript - 查询。为表中的每一行发送 ajax 查询
我找到了很多关于我的问题的答案，但问题没有解决我有表格，有数据，例如: Data 1 Data 2 Data 3
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
Android SQLite 查询(我想解析一般的 SQL 查询)
我从 EditText 中获取了 String 值。以及提交查询的按钮。 String sql=editQuery.getText().toString();// SELECT * FROM empl
mysql 查询 - 为一个巨大的表优化现有的 MAX-MIN 查询
我有一个或多或少有效的查询(关于结果)，但处理大约需要 45 秒。这对于在 GUI 中呈现数据来说肯定太长了。所以我的需求是找到一个更快/更高效的查询(几毫秒左右会很好)我的数据表大约有 3000
SQL 查询 - 将 NULL 结果添加到 SELECT 查询
这是我第一次使用 Stack Overflow，所以我希望我以正确的方式提出这个问题。我有 2 个 SQL 查询，我正在尝试比较和识别缺失值，尽管我无法将 NULL 字段添加到第二个查询中以识别缺失
sql - 什么是动态 SQL 查询？何时需要使用动态 SQL 查询？
什么是动态 SQL 查询？何时需要使用动态 SQL 查询？我使用的是 SQL Server 2005。最佳答案这里有几篇文章: Introduction to Dynamic SQL Dynami
php - 在另一个 mysql 查询 while 循环中调用 mysql 查询
include "mysql.php"; $query= "SELECT ID,name,displayname,established,summary,searchlink,im
java - MySQL 查询 "select top 5"查询
我有一个查询要“转换”为 mysql。这是查询: select top 5 * from (select id, firstName, lastName, sum(fileSize) as To
c# - Entity Framework 查询 ToString 不会产生 SQL 查询
通过我的研究，我发现至少从 EF 4.1 开始，EF 查询上的 .ToString() 方法将返回要运行的 SQL。事实上，这对我来说非常有用，使用 Entity Framework 5 和 6。但
MySQL 查询(或 Doctrine 1.2 查询)- 从连接表和过滤器中获取最新项目
我在构造查询来执行以下操作时遇到问题: 按activity_type_id过滤联系人，仅显示最近事件具有所需activity_type_id或为NULL(无事件)的联系人表格结构如下: 一个联系人可
php - 如何在执行另一个 SQL 查询 x 分钟后执行一个 SQL 查询？
如何让我输入数据库的信息在输入数据 5 分钟后自行更新？假设我有一张 table : +--+--+-----+ |id|ip|count| +--+--+-----+ |
database - 如何在 N1QL 查询(Couchbase 查询)中使用 LENGTH() 字符串函数
我正在尝试搜索正好是 4 位数字的 ID，我知道我需要使用 LENGTH() 字符串函数，但找不到如何使用它的示例。我正在尝试以下(和其他变体)但它们不起作用。 SELECT max(car_id)
php - 将 SQL 查询 (+JOIN) 转换为 Symfony Propel 查询
我有一个在 mysql 上运行良好的 sql 查询(查询 + 连接): select sum(pa.price) from user u , purchase pu , pack pa where (

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

mysql - 为什么在MySQL中拆分表会使插入和查询变慢