- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的目标是在一个MySQL表中保存大约6000万行用于高速读取,并且正确地继续插入。
对于产品设计来说,这6000万行自然可以分成3000块,所以我决定做一个表切分策略,把1-60M的表分成3000个表。
我取了300万数据进行以下测试:
一个表中有300万行:
然后,这300万个数据的平均插入时间是80秒,每1000个查询(每个查询从这300万个数据表中获取1000行)大约需要10秒。
300万行平均分为3000个表:
在3000个表中插入300万个数据:79秒(不是很快);
平均每1000次查询3000个表(其中每个表有1000行):120秒(比上面慢12倍)
为什么?虽然我有3000个表,但基本上都是MySQL管理的文件,每个查询只访问一个只有1000行的表,但为什么这么慢呢?
我在一台8核机器上运行,该机器配有15G RAM,配置如下:
open_files_limit 300000
table_open_cache 100000
CREATE TABLE `datatable` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`type` int(11) NOT NULL DEFAULT 0,
`description` varchar(255),
`datimeutc` datetime,
`datimelocal` datetime,
`value` double,
PRIMARY KEY (`id`),
KEY INDEX_TYPE ON (type)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
PARTITION BY RANGE (id) (
PARTITION p0 VALUES LESS THAN (10000000),
PARTITION p1 VALUES LESS THAN (20000000),
PARTITION p2 VALUES LESS THAN (30000000),
PARTITION p3 VALUES LESS THAN (40000000),
PARTITION p4 VALUES LESS THAN (50000000)
PARTITION p5 VALUES LESS THAN MAXVALUE
);
CREATE TABLE `datatable` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`type` int(11) NOT NULL DEFAULT 0,
`description` varchar(255),
`datimeutc` datetime,
`datimelocal` datetime,
`value` double,
KEY (`id`),
KEY INDEX_TYPE ON (type)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
PARTITION BY RANGE (type) (
PARTITION p0 VALUES LESS THAN (500),
PARTITION p1 VALUES LESS THAN (1000),
PARTITION p2 VALUES LESS THAN (1500),
PARTITION p3 VALUES LESS THAN (2000),
PARTITION p4 VALUES LESS THAN (2500)
PARTITION p5 VALUES LESS THAN MAXVALUE
);
最佳答案
是的,在MySQL中拆分表对于以下场景是一种通用的好做法:
表太大,常规的表操作时间变得无法忍受(性能急剧下降)
表中热数据的百分比相对较小
数据上有一个时间窗口(数据可以及时存档或清除)
为了提高并发性,在这种情况下,数据通常分布在不同的独立物理服务器或不同的存储系统中
在你最初的文章中,我认为你主要关心第一个场景,所以让我们进一步讨论。
为什么当表很大时性能会急剧下降?尺寸界限是多少?都是关于记忆的。除非您购买了FusionIO或任何类型的SSD系统,否则当I/O命中磁盘时,总是会有一个陡峭的曲线。通常,SATA/SAS磁盘阵列只能执行大约50~200个随机IOPS(写缓存受BBU保护),与DDR的200000多个随机IOPS相比,这太慢了。当MySQL的变量被设置为一个合理的值并且表的大小不比缓存的大小大时,性能是相当好的,但是当表增长超过这个限制时,就会发生退化。因此,不要过度优化表结构,除非您知道它们将增长到多大,并测试了整个系统的极限。过早地拆分表不会显示出太多的优势,而且由于数据碎片化带来的其他副作用,性能甚至可能变得更差。
基准就像游戏,你知道,它们不能真正代表现实生活中的情况,所以我们需要规范游戏规则。我对my.cnf设置很好奇,特别是缓冲区变量,因为第一个场景的性能很大程度上取决于内存缓存和磁盘读/写策略。变量包括:
table_definition_cache:此变量指示内存中可以存储多少表元数据(对MyISAM来说,它们是.frm文件)。如果一个表被重复打开,它不会有帮助,但是如果有很多表需要打开(在您的例子中,是3000个表),如果这个缓存可以包含所有表的元数据,它会有帮助。
table_open_cache:这个变量指示MySQL可以在内存中保存多少内部表处理程序,就像上面一样,它将提高表上下文切换速度。
key_buffer_size:因为您使用的是MyISAM,所以这个变量在性能上会起到非常重要的作用。它设置MySQL可以分配给MyISAM表的最大内存空间大小,如果使用MyISAM,首选值将是系统内存的30%。我取30%的原因是有两个东西要缓存,一个是索引,另一个是行数据;key_buffer_size表示索引,OS负责行数据缓存(块I/O缓冲缓存)。为索引保留30%,为行数据保留50%,为表缓存、线程缓存、连接缓存等其他缓冲区缓存保留20%。看起来此变量不会同时降低这两种情况的速度,但谁知道,设置得太小可能会同时影响这两种情况,而多表的影响更大。
key_cache_block_size:这个变量设置缓存块的大小,这将浪费I/O(头/尾读)并导致读复写(先读后写)。多表方案可能会受到更多的影响,因为它有更多的表(文件)。
我还很好奇SQL查询是如何编写的,您使用了多少线程来读/写MySQL。例如,顺序写入一个表就像顺序写入,速度比随机写入快得多;顺序写入3000个表就像随机写入,速度可能不如随机写入。当创建3000个表时,有3000个.MYI文件和3000个.MYD文件,它们在磁盘上可能不连续(会发生随机I/O),但是1.MYI和1.MYD,它们很可能在磁盘上自己连续。这也适用于磁盘读取。但是在你的例子中,读比写慢得多,我想这可能是因为写是缓冲的,但是读不是,如果你是第一次选择行的话。当从一个表中读取时,MySQL可以将key_cache作为一个整体预加载一次,OS也可以预读取下一个块,因为它们是连续的;但是在多个表中,MySQL/OS不能作为一个整体预加载。如果可以尝试生成更多的客户端线程来发出查询,则这两种情况的性能可能会更接近。
关于您最近对分区的更新,我想您可能是对的,按“类型”分区听起来很像是随机I/O,当您批量插入哪些SQL数据是按主键排序的,而不是按“类型”排序的,外加子分区表处理程序开关。
关于mysql - 为什么在MySQL中拆分表会使插入和查询变慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17474678/
我有三张 table 。表 A 有选项名称(即颜色、尺寸)。表 B 有选项值名称(即蓝色、红色、黑色等)。表C通过将选项名称id和选项名称值id放在一起来建立关系。 我的查询需要显示值和选项的名称,而
在mysql中,如何计算一行中的非空单元格?我只想计算某些列之间的单元格,比如第 3-10 列之间的单元格。不是所有的列...同样,仅在该行中。 最佳答案 如果你想这样做,只能在 sql 中使用名称而
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
我正在为版本7.6进行Elasticsearch查询 我的查询是这样的: { "query": { "bool": { "should": [ {
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
是否可以编写一个查询来检查任一子查询(而不是一个子查询)是否正确? SELECT * FROM employees e WHERE NOT EXISTS (
我找到了很多关于我的问题的答案,但问题没有解决 我有表格,有数据,例如: Data 1 Data 2 Data 3
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
我从 EditText 中获取了 String 值。以及提交查询的按钮。 String sql=editQuery.getText().toString();// SELECT * FROM empl
我有一个或多或少有效的查询(关于结果),但处理大约需要 45 秒。这对于在 GUI 中呈现数据来说肯定太长了。 所以我的需求是找到一个更快/更高效的查询(几毫秒左右会很好)我的数据表大约有 3000
这是我第一次使用 Stack Overflow,所以我希望我以正确的方式提出这个问题。 我有 2 个 SQL 查询,我正在尝试比较和识别缺失值,尽管我无法将 NULL 字段添加到第二个查询中以识别缺失
什么是动态 SQL 查询?何时需要使用动态 SQL 查询?我使用的是 SQL Server 2005。 最佳答案 这里有几篇文章: Introduction to Dynamic SQL Dynami
include "mysql.php"; $query= "SELECT ID,name,displayname,established,summary,searchlink,im
我有一个查询要“转换”为 mysql。这是查询: select top 5 * from (select id, firstName, lastName, sum(fileSize) as To
通过我的研究,我发现至少从 EF 4.1 开始,EF 查询上的 .ToString() 方法将返回要运行的 SQL。事实上,这对我来说非常有用,使用 Entity Framework 5 和 6。 但
我在构造查询来执行以下操作时遇到问题: 按activity_type_id过滤联系人,仅显示最近事件具有所需activity_type_id或为NULL(无事件)的联系人 表格结构如下: 一个联系人可
如何让我输入数据库的信息在输入数据 5 分钟后自行更新? 假设我有一张 table : +--+--+-----+ |id|ip|count| +--+--+-----+ |
我正在尝试搜索正好是 4 位数字的 ID,我知道我需要使用 LENGTH() 字符串函数,但找不到如何使用它的示例。我正在尝试以下(和其他变体)但它们不起作用。 SELECT max(car_id)
我有一个在 mysql 上运行良好的 sql 查询(查询 + 连接): select sum(pa.price) from user u , purchase pu , pack pa where (
我是一名优秀的程序员,十分优秀!