gpt4 book ai didi

MySQL 速度慢,表中有大文本字段

转载 作者:行者123 更新时间:2023-11-29 01:37:09 27 4
gpt4 key购买 nike

我们在使用 MySQL(以及 MariaDB)时遇到了一个奇怪的问题。一个简单的数据库,有 2 个表(InnoDB 引擎),都包含(以及其他一些)3 或 4 个带有 XML 数据的文本列。大小为 1-5kB。每个表大约有 40000 行,除了外键索引外没有索引。

奇怪的部分是运行 select 语句。 XML 列在 select 语句(select、where、order、group、...)中的任何地方都没有使用,但它们会减慢执行速度。如果这些列为空,则 select 语句的执行时间不到 2 秒,但如果它们包含数据,则执行时间会跳到 20 秒左右。这是为什么?!

这是一个脚本,可生成一个行为与上述类似的示例:

CREATE TABLE tableA (
id bigint(20) NOT NULL AUTO_INCREMENT,
col1 bigint(20) NULL,
col2 bigint(20) NULL,
date1 datetime NULL,
largeString1 text NULL,
largeString2 text NULL,
largeString3 text NULL,
largeString4 text NULL,
PRIMARY KEY (id)
) DEFAULT CHARSET=utf8;

CREATE TABLE tableB (
id bigint(20) NOT NULL AUTO_INCREMENT,
col1 bigint(20) NULL,
col2 varchar(45) NULL,
largeString1 text NULL,
largeString2 datetime NULL,
largeString3 text NULL,
PRIMARY KEY (id)
) DEFAULT CHARSET=utf8;

填表:

DELIMITER ;;
CREATE PROCEDURE `fillTables`(
numRows INT
)
BEGIN

DECLARE i INT;
DECLARE j INT;
DECLARE largeString TEXT;
SET i = 1;

START TRANSACTION;

WHILE i < numRows DO
SET j = 1;
SET largeString = '';
WHILE j <= 100 DO
SET largeString = CONCAT(largeString, (SELECT UUID()));
SET j = j + 1;
END WHILE;

INSERT INTO tableA (id, col1, col2, date1, largeString1,
largeString2, largeString3, largeString4)
VALUES (i, FLOOR(1 + RAND() * 2), numRows - i,
date_sub(now(), INTERVAL i hour),
largeString, largeString, largeString, largeString);
INSERT INTO tableB (id, col1, col2, largeString1,
largeString2, largeString3)
VALUES (numRows - i, i, (SELECT UUID()),
largeString, largeString, largeString);
SET i = i + 1;
END WHILE;

COMMIT;

ALTER TABLE tableA ADD FOREIGN KEY (col2) REFERENCES tableB(id);
CREATE INDEX idx_FK_tableA_tableB ON tableA(col2);
ALTER TABLE tableB ADD FOREIGN KEY (col1) REFERENCES tableA(id);
CREATE INDEX idx_FK_tableB_tableA ON tableB(col1);

END ;;

测试

CREATE PROCEDURE `test`(
_param1 bigint
,_dateFrom datetime
,_dateTo datetime
)
BEGIN

SELECT
a.id
,DATE(a.date1) as date
,COALESCE(b2.col2, '') as guid
,COUNT(*) as count
FROM
tableA a
LEFT JOIN tableB b1 ON b1.col1 = a.id
LEFT JOIN tableB b2 ON b2.id = a.col2
WHERE
a.col1 = _param1
AND (_dateFrom IS NULL OR DATE(a.date1) BETWEEN DATE(_dateFrom) AND DATE(_dateTo))
GROUP BY
a.id
,DATE(a.date1)
,b2.col2
;

END;;
DELIMITER ;

使用随机数据填充表格

call fillTables(40000);

用于检索数据的存储过程:

call test(2, null, null);

此外,MSSQL 在几分之一秒内执行 select 语句,没有任何表优化(即使没有定义外键)。

更新:

显示两个表的创建表:

'CREATE TABLE `tableA` (
`id` bigint(20) NOT NULL AUTO_INCREMENT,
`col1` bigint(20) DEFAULT NULL,
`col2` bigint(20) DEFAULT NULL,
`date1` datetime DEFAULT NULL,
`largeString1` text,
`largeString2` text,
`largeString3` text,
`largeString4` text,
PRIMARY KEY (`id`),
KEY `idx_FK_tableA_tableB` (`col2`),
CONSTRAINT `tableA_ibfk_1` FOREIGN KEY (`col2`) REFERENCES `tableB` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=40000 DEFAULT CHARSET=utf8'


'CREATE TABLE `tableB` (
`id` bigint(20) NOT NULL AUTO_INCREMENT,
`col1` bigint(20) DEFAULT NULL,
`col2` varchar(45) DEFAULT NULL,
`largeString1` text,
`largeString2` datetime DEFAULT NULL,
`largeString3` text,
PRIMARY KEY (`id`),
KEY `idx_FK_tableB_tableA` (`col1`),
CONSTRAINT `tableB_ibfk_1` FOREIGN KEY (`col1`) REFERENCES `tableA` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=40000 DEFAULT CHARSET=utf8'

最佳答案

两个表都需要 INDEX(col1)。没有它,这些需要表扫描:

WHERE a.col1 = _param1

ON b1.col1 = a.id

对于 a 这将是“覆盖”,因此更快:

INDEX(col1, date1, id, col2)

除非需要,否则不要使用 LEFT

函数中尽量不要隐藏列;它阻止为它们使用索引:

DATE(a.date1) BETWEEN ...

这可能适用于:

    a.date1 >= DATE(_dateFrom)
AND a.date1 < DATE(_dateTo) + INTERVAL 1 DAY

至于 20 秒 vs 2 秒之谜 -- 您是否对每个计时测试进行了两次?第一次经常被 I/O 拖累;第二个是内存限制。

ROW_FORMAT

在 InnoDB 中有 4 个 ROW_FORMATs;它们的主要区别在于它们处理大字符串的方式(TEXTBLOB 等)。您提到使用 NULL 字符串比使用非空字符串查询运行得更快。使用默认的 ROW_FORMAT,部分或全部 XML 字符串与其余列一起存储。在一些限制之后,其余的放在另一个 block 中。

如果一个大字段是NULL,那么它几乎不占用空间。

使用 ROW_FORMAT=DYNAMIC(参见 CREATE TABLEALTER TABLE),非空列将倾向于被推送到其他 block 而不是使记录的主要部分变得庞大。

这具有允许更多行适合单个 block 的效果(溢出除外)。这反过来又允许某些查询运行得更快,因为它们可以用更少的 I/O 获取更多信息。

阅读文档,我认为你需要这些:

SET GLOBAL innodb_file_format=Barracuda;
SET GLOBAL innodb_file_per_table=1;
ALTER TABLE tbl ROW_FORMAT=DYNAMIC;

在阅读文档时,您将遇到COMPRESSED。尽管这会将 XML 缩小 3:1,但还有其他问题。我不知道它最终是否会变得更好。

缓冲池

innodb_buffer_pool_size 应该是 可用 RAM 的大约 70%。

关于MySQL 速度慢,表中有大文本字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38308717/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com