mysql - 为什么 MySQL InnoDB 在全表扫描时比 MyISAM 慢那么多？-6ren

mysql - 为什么 MySQL InnoDB 在全表扫描时比 MyISAM 慢那么多？

转载作者：可可西里更新时间：2023-11-01 06:43:28

编辑

OP has acknowledged a mistake when profiling PostgreSQL in his answer below. I am updating this question to reflect the comparison between MyISAM & InnoDB.

你好，

我对 MySQL InnoDB、MyISAM 和 PostgreSQL 进行了测试，看看效果如何这些引擎中的每一个都执行全表扫描以了解什么响应时间可能适用于我们不可避免的情况需要让这一切发生。

测试是在 Intel Core 2 Quad Q6600 @ 2.4Ghz w/4GB RAM 和 7200 RPM HD 以及 16MB 缓存。

MySQL 版本为 5.0.67-community-nt-log 32 位，PGSQL 版本为 8.4。

我写了一个小脚本来在一个包含 4 列的表中生成 500 万行数据。这些是在 MySQL 和 PGSQL 中使用的创建表语句:

-- 数据库

CREATE TABLE sample_innodb (
id integer unsigned not null,
vc1 varchar(200) not null,
vc2 varchar(200) not null,
vc3 varchar(200) not null
) ENGINE=InnoDB;

-- MyISAM

CREATE TABLE sample_isam (
id integer unsigned not null,
vc1 varchar(200) not null,
vc2 varchar(200) not null,
vc3 varchar(200) not null
) ENGINE=MyISAM;

-- PostgreSQL

create table sample_pgsql (
id integer not null,
vc1 varchar(200) not null,
vc2 varchar(200) not null,
vc3 varchar(200) not null
);

这是我用来为这些表生成数据的脚本:

var chars = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXTZabcdefghiklmnopqrstuvwxyz'.split('');

function randomString(length) {
 var str = '';
 for (var i = 0; i < length; i++) {
    str += chars[Math.floor(Math.random() * chars.length)];
 }

   return str;
}

function genrow(idv, vcv1, vcv2, vcv3) {
 return idv + "," + vcv1 + "," + vcv2 + "," + vcv3;
}

function gentable(numrows) {
 for (var i = 0; i < numrows; i++) {
    var row = 
        genrow(i,
               randomString(10),
               randomString(20),
               randomString(30));

    WScript.Echo(row);
  }
}

gentable(5000000);

我在 Windows 上使用以下命令运行此脚本:

cscript.exe/nologo test.js > data.csv

您可以使用这些命令将此数据加载到 MySQL 中:

LOAD DATA LOCAL INFILE 'data.csv'
INTO TABLE sample_innodb
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(id, vc1, vc2, vc3);

LOAD DATA LOCAL INFILE 'data.csv'
INTO TABLE sample_isam
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(id, vc1, vc2, vc3);

您可以使用此命令将数据加载到 PGSQL 中:

copy sample_pgsql (id, vc1, vc2, vc3) from 'data.csv' with delimiter ','

我将此查询用于计时以尝试强制执行最坏情况的表扫描场景:

MySQL

select count(*) from [table] 
where vc1 like '%blah0%' and vc2 like '%blah1%' and vc3 like '%blah2%';

数据库

select count(*) from [table] 
where vc1 ilike '%blah0%' and vc2 ilike '%blah1%' and vc3 ilike '%blah2%';

我多次运行此查询以获得平均完成时间，离开完成第一次运行，让所有内容都在内存中准备就绪。

结果如下:

InnoDB - 8.56s
MyISAM - 1.84s
PGSQL - 8.4 秒

问题

为什么InnoDB和MyISAM在完成全表扫描的时间上相差这么远？我只是在 MySQL 配置中遗漏了一些明显的东西吗？我使用 MySQL 多年，只要我的问题被限制在“索引可以解决这个”问题的集合上，我就没有遇到过任何问题。

分区显然也可以解决这个问题，但要高得多成本。

作为引用，这里是我的 MySQL 和 PGSQL 配置文件:

MySQL配置

[client]
port=3306

[mysql]
default-character-set=utf8

[mysqld]
port=3306
basedir="C:/Program Files/MySQL/MySQL Server 5.0/"
datadir="C:/Program Files/MySQL/MySQL Server 5.0/Data/"
default-character-set=utf8
default-storage-engine=INNODB
log="c:/logs/mysql/mysqld.log"
sql-mode="STRICT_TRANS_TABLES,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION"
max_connections=700
query_cache_size=0M
table_cache=1400
tmp_table_size=16M
thread_cache_size=34

myisam_max_sort_file_size=100G
myisam_sort_buffer_size=8M
key_buffer_size=200M
read_buffer_size=64K
read_rnd_buffer_size=256K
sort_buffer_size=208K

innodb_additional_mem_pool_size=2M
innodb_flush_log_at_trx_commit=1
innodb_log_buffer_size=1M
innodb_buffer_pool_size=200M
innodb_log_file_size=18M
innodb_thread_concurrency=10

PGSQL 配置

listen_addresses = '*'        # what IP address(es) to listen on;
                # comma-separated list of addresses;
                # defaults to 'localhost', '*' = all
                # (change requires restart)
port = 5432                # (change requires restart)
max_connections = 100            # (change requires restart)

shared_buffers = 32MB            # min 128kB
                # (change requires restart)
temp_buffers = 12MB            # min 800kB
maintenance_work_mem = 32MB        # min 1MB

log_destination = 'stderr'        # Valid values are combinations of
                # stderr, csvlog, syslog and eventlog,
                # depending on platform.  csvlog
                # requires logging_collector to be on.

logging_collector = on        # Enable capturing of stderr and csvlog
                # into log files. Required to be on for
                # csvlogs.
                # (change requires restart)

log_line_prefix = '%t'            # special values:
                #   %u = user name
                #   %d = database name
                #   %r = remote host and port
                #   %h = remote host
                #   %p = process ID
                #   %t = timestamp without milliseconds
                #   %m = timestamp with milliseconds
                #   %i = command tag
                #   %c = session ID
                #   %l = session line number
                #   %s = session start timestamp
                #   %v = virtual transaction ID
                #   %x = transaction ID (0 if none)
                #   %q = stop here in non-session
                #        processes
                #   %% = '%'
                # e.g. '<%u%%%d> '

datestyle = 'iso, mdy'
lc_messages = 'English_United States.1252'            # locale for system error message
                # strings
lc_monetary = 'English_United States.1252'            # locale for monetary formatting
lc_numeric = 'English_United States.1252'            # locale for number formatting
lc_time = 'English_United States.1252'                # locale for time formatting

default_text_search_config = 'pg_catalog.english'

还要了解这些数据集在 MySQL 中实际有多大，这里有一个在它们上显示表状态\G，以防有帮助:

*************************** 1. row ***************************
           Name: sample_innodb
         Engine: InnoDB
        Version: 10
     Row_format: Compact
           Rows: 5000205
 Avg_row_length: 100
    Data_length: 500154368
Max_data_length: 0
   Index_length: 149700608
      Data_free: 0
 Auto_increment: NULL
    Create_time: 2010-02-02 17:27:50
    Update_time: NULL
     Check_time: NULL
      Collation: utf8_general_ci
       Checksum: NULL
 Create_options:
        Comment: InnoDB free: 497664 kB

*************************** 2. row ***************************
           Name: sample_isam
         Engine: MyISAM
        Version: 10
     Row_format: Dynamic
           Rows: 5000000
 Avg_row_length: 72
    Data_length: 360006508
Max_data_length: 281474976710655
   Index_length: 1024
      Data_free: 0
 Auto_increment: NULL
    Create_time: 2010-02-02 17:27:50
    Update_time: 2010-02-02 17:37:23
     Check_time: NULL
      Collation: utf8_general_ci
       Checksum: NULL
 Create_options:
        Comment:

最佳答案

在使用您的配置的我的服务器上，我的基本性能如下:

InnoDB:5.71 秒
MyISAM:2.50 秒

在我的书中，这还不错，但可以进行一些调整。

您的 InnoDB 性能可以在几个方面得到改进:

增加`innodb_buffer_pool_size`

这是最重要的 InnoDB 配置变量。理想情况下，它应该是专用于 MySQL 和 InnoDB 的服务器上可用 RAM 的 70-80%。
将我服务器上的 innodb_buffer_pool_size 增加到 2G(对于这个测试来说绰绰有余)将 InnoDB 时间减少到4.60s

将id设为主键

InnoDB 基于 PRIMARY KEY 对其数据进行集群。当你不声明一个时，InnoDB 会隐式地生成一个随机的。拥有顺序主键 (id) 比随机主键更快。
将 id 作为我服务器上的主键将 InnoDB 时间减少到3.80s

升级你的 MySQL/InnoDB

MySQL 5.1+ MySQL 支持可插拔存储引擎。特别是新的InnoDB Plugin .

新的 InnoDB 引擎提供了许多性能增强，可能对这种特定类型的查询有重大影响。

注意事项:

从 MySQL 5.1.38 开始，InnoDB 插件包含在 MySQL 中
从 MySQL 5.1.43 开始，InnoDB 插件不仅包括在内，而且是 MySQL 的默认引擎

关于mysql - 为什么 MySQL InnoDB 在全表扫描时比 MyISAM 慢那么多？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2194914/

文章推荐： php - 如何构建 'related questions' 引擎？

文章推荐： ios - 如何向 Alamofire 请求添加参数

文章推荐： ios - 在 iOS 图表上显示条形图的最后一项

文章推荐： mysql - mysql中正则表达式匹配中的十六进制字符

android - 当我们使用 SQLite 时，当我们使用 content provider 时，当我们使用 Shared preference 时
SQLite、Content provider 和 Shared Preference 之间的所有已知区别。但我想知道什么时候需要根据情况使用 SQLite 或 Content Provider 或
Backbone.js 模型验证仅在 set->save 时(不是在 fetch 时)
警告:我正在使用一个我无法完全控制的后端，所以我正在努力解决 Backbone 中的一些注意事项，这些注意事项可能在其他地方更好地解决......不幸的是，我别无选择，只能在这里处理它们! 所以，我的
jquery - 使用 “prefetch” 时 Twitter 预输入没有结果，但使用 “remote” JSON 时
我一整天都在挣扎。我的预输入搜索表达式与远程 json 数据完美配合。但是当我尝试使用相同的 json 数据作为预取数据时，建议为空。点击第一个标志后，我收到预定义消息“无法找到任何内容...”，结果
java - repaint() 时 JTextArea 不显示，但 revalidate() 时 Graphics 不更新？
我正在制作一个模拟 NHL 选秀彩票的程序，其中屏幕右侧应该有一个 JTextField，并且在左侧绘制弹跳的选秀球。我创建了一个名为 Ball 的类，它实现了 Runnable，并在我的主 Draf
java - java中将时间戳转换为特定格式(年、月、周、日、时、时、分、秒)
这个问题已经有答案了: How can I calculate a time span in Java and format the output? (18 个回答) 已关闭 9 年前。这是我的代码
设置 header 时 AJAX 请求失败，但没有设置 header 时 AJAX 请求会成功
我有一个 ASP.NET Web API 应用程序在我的本地 IIS 实例上运行。 Web 应用程序配置有 CORS。我调用的 Web API 方法类似于: [POST("/API/{foo}/{ba
android - 用户输入年、月、日、时、分与系统年、月、日、时、分的区别
我将用户输入的时间和日期作为: DatePicker dp = (DatePicker) findViewById(R.id.datePicker); TimePicker tp = (TimePic
algorithm - 在处理 Tabu Search Optimization 时，当所有相邻解决方案都是 tabu 时，通常的做法是什么？
放宽“邻居”的标准是否足够，或者是否有其他标准行动可以采取？最佳答案如果所有相邻解决方案都是 Tabu，则听起来您的 Tabu 列表的大小太长或您的释放策略太严格。一个好的 Tabu 列表长度是
c++ - 为什么我需要传递一个比较器来构造一个 priority_queue，当它是 lambda 时，而不是当它是 std::greater 时？
我正在阅读来自 cppreference 的代码示例: #include #include #include #include template void print_queue(T& q)
javascript - 当触发器为 'click' 时，Bootstrap 3 工具提示表现得很奇怪，当触发器为 'manual' 时，则不起作用
我快疯了，我试图理解工具提示的行为，但没有成功。 1. 第一个问题是当我尝试通过插件(按钮 1)在点击事件中使用它时 -> 如果您转到 Fiddle，您会在“内容”内看到该函数' 每次点击都会调用该属
javascript - 使用 useContext 时，数据首先加载为空数组，当我应用 .map() 或 .find() 时，我收到一条错误消息
我在功能组件中有以下代码: const [ folder, setFolder ] = useState([]); const folderData = useContext(FolderContex
swift - 使用 NSURLSession 时 GET 成功，但使用 AFHTTPSessionManager 时 GET 失败
我在使用预签名网址和 AFNetworking 3.0 从 S3 获取图像时遇到问题。我可以使用 NSMutableURLRequest 和 NSURLSession 获取图像，但是当我使用 AFHT
java - 当池生命周期为 LIFE_CYCLE_FAILED 时，使用 UCP 管理器调用 closeConnections() 时 UCP 连接是否关闭？
我正在使用 Oracle ojdbc 12 和 Java 8 处理 Oracle UCP 管理器的问题。当 UCP 池启动失败时，我希望关闭它创建的连接。当池初始化期间遇到 ORA-02391:超过
ios - 当我点击 "Run"时，应用程序崩溃，但是当我点击 "Stop"然后 "Run"时，应用程序崩溃
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve
css - 我有一个笨蛋。当我在全局范围内定义我的 css 时，它起作用了。当我在我的组件中定义我的 css 时，它失败了。这是怎么回事？
引用这个plunker: https://plnkr.co/edit/GWsbdDWVvBYNMqyxzlLY?p=preview 我在 styles.css 文件和 src/app.ts 文件中指定
python - 当宽度 <1.0 时，Matplotlib 周线太细；当宽度>=1.0 时，周线太粗
为什么我的条形这么细？我尝试将宽度设置为 1，它们变得非常厚。我不知道还能尝试什么。默认厚度为 0.8，这是应该的样子吗？ import matplotlib.pyplot as plt import
当我使用 RIGHT JOIN 时，MYSQL 无法识别字段，但当我使用 NATURAL JOIN 时，MYSQL 可以识别字段
当我编写时，查询按预期执行: SELECT id, day2.count - day1.count AS diff FROM day1 NATURAL JOIN day2; 但我真正想要的是右连接。当
python - 在 pandas 中读取时间值(时、分、秒、日、月、年)时，如何指定先到先得？
我有以下时间数据: 0 08/01/16 13:07:46,335437 1 18/02/16 08:40:40,565575 2 14/01/16 22:2
javascript - 当我使用 axios POST 时，Req.body 为空，但当我使用 'request' 时，它工作正常
一些背景知识 -我的 NodeJS 服务器在端口 3001 上运行，我的 React 应用程序在端口 3000 上运行。我在 React 应用程序 package.json 中设置了一个代理来代理对端
javascript - 使用 AngularJs 时，当 img 标签具有 src attr 时，如何在其上设置 data-src
我面临着一个愚蠢的问题。我试图在我的 Angular 应用程序中延迟加载我的图像，我已经尝试过这个2: 但是他们都设置了 src attr 而不是 data-src，我在这里遗漏了什么吗？保留 d

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城