MySQL下海量数据的迁移步骤分享-6ren

MySQL下海量数据的迁移步骤分享

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

26

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章MySQL下海量数据的迁移步骤分享由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

公司数据中心计划将海量数据做一次迁移，同时增加某时间字段（原来是datatime类型，现在增加一个date类型），单表数据量达到6亿多条记录，数据是基于时间（月）做的partition由于比较忙，一直没有总结，所以很细节的地方都记不清楚了，此处只是简单总结下当时的情形，备忘。

乱打乱撞。

最初接到任务，没有明确的入手点，直接就是select * from db limit 10000,动态修改翻页数量，通过控制台看耗时情况，慢。

。

复制代码代码如下:

 
 
 SELECT IR_SID,IR_HKEY,IR_GROUPNAME,IR_SITENAME,IR_CHANNEL,IR_MID,IR_URLNAME,IR_STATUS_CONTENT,IR_CREATED_AT,date_format(IR_CREATED_AT,'%Y.%m.%d'),IR_LASTTIME,IR_VIA,IR_THUMBNAIL_PIC,IR_RTTCOUNT,IR_COMMTCOUNT,IR_UID,IR_SCREEN_NAME,IR_RETWEETED_UID,IR_RETWEETED_SCREEN_NAME,IR_RETWEETED_MID,IR_RETWEETED_URL,IR_STATUS_BODY FROM TB_SINA_STATUS WHERE IR_SID>40000 AND IR_SID<50001 INTO OUTFILE '/home/mysql/data/data_outfile.txt'; LOAD DATA INFILE '/home/mysql/data/data_outfile.txt' INTO TABLE NEW_TB_SINA_STATUS;  

。

是否可以基于partition读数据呢。

既然数据库是按partition做分区，是否可以按partition读数据呢，如果可以改用怎样的语法读呢？时间上只要按月读数据，mysql会自动的基于partition读，具体可以用命令：explain partition即可看到具有基于哪个partition 读大数据会十分耗时，对于数据进行到什么状态，我们可能十分想了解，可以用命令：show status查看，我印象中主要是sending data，writting to net之类的。 innodb引擎的性能较myIsam引擎到底如何？导库实验中导出并导入一个月的数据（8G的文本量，2500w条记录），在myisam引擎下需要不到4h（测试环境为pc机），但是在innodb引擎下，却需要32小时，改善索引之类的，也需要28h，性能有8倍之差.

在网上找到了高人关于innodb与myisam区别，说需要修改innodb_buffer_pool_size、innodb_flush_log_at_trx_commit 。

可保证没有太大差别，尝试了没有明显改善，在本机倒是可以，为什么呢？？？这个折腾了我好长时间 innodb_flush_log_at_trx_commit 。

是否为Innodb比MyISAM慢1000倍而头大？看来也许你忘了修改这个参数了。默认值是 1，这意味着每次提交的更新事务（或者每个事务之外的语句）都会刷新到磁盘中，而这相当耗费资源，尤其是没有电池备用缓存时。很多应用程序，尤其是从 MyISAM转变过来的那些，把它的值设置为 2 就可以了，也就是不把日志刷新到磁盘上，而只刷新到操作系统的缓存上。日志仍然会每秒刷新到磁盘中去，因此通常不会丢失每秒1-2次更新的消耗。如果设置为 0 就快很多了，不过也相对不安全了 — MySQL服务器崩溃时就会丢失一些事务。设置为 2 只会丢失刷新到操作系统缓存的那部分事务.

innodb_buffer_pool_size 。

Innodb在默认的 innodb_buffer_pool_size 设置下跟蜗牛似的。由于Innodb把数据和索引都缓存起来，无需留给操作系统太多的内存，因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存.

最后千辛万苦的、跋山涉水的，找到了另外两个参数。

innodb_log_file_size 。

在高写入负载尤其是大数据集的情况下很重要。这个值越大则性能相对越高，但是要注意到可能会增加恢复时间。我经常设置为 64-512MB，跟据服务器大小而异.

innodb_log_buffer_size 默认的设置在中等强度写入负载以及较短事务的情况下，服务器性能还可以。如果存在更新操作峰值或者负载较大，就应该考虑加大它的值了。如果它的值设置太高了，可能会浪费内存 — 它每秒都会刷新一次，因此无需设置超过1秒所需的内存空间。通常 8-16MB 就足够了。越小的系统它的值越小.

最终搞定，myisam与innodb的导数据的性能基本一致，2500的数据约需要3.5h，单库读数据需要2h，这个只是一个示意值仅供参考（pc上的测试），正式服务的上的测试结果更加明显。

性能调优语句参考。

复制代码代码如下:

 
 set profiling = 1; 
 
 show profiles\G 
 
 SHOW profile CPU,BLOCK IO io FOR query 1; 
 
 show status 
 
 Show Processlist 
 
 explain

。

并行读取是否会更快?

如果基于partition导数据，还是不能达到既定目标，我最终是通过编写shell脚步，多进程并行基于partition导数据，即启动多个mysql -uroot -p db < exp201201.sql 、mysql -uroot -p db < exp201202.sql，每个sql下按天做读写（事件环境下是按月做partition的）。

。

复制代码代码如下:

 
 SELECT IR_SID,IR_HKEY,IR_GROUPNAME,IR_SITENAME,IR_CHANNEL,IR_MID,IR_URLNAME,IR_STATUS_CONTENT,IR_CREATED_AT,date_format(IR_CREATED_AT,'%Y.%m.%d'),IR_LASTTIME,IR_VIA,IR_THUMBNAIL_PIC,IR_RTTCOUNT,IR_COMMTCOUNT,IR_UID,IR_SCREEN_NAME,IR_RETWEETED_UID,IR_RETWEETED_SCREEN_NAME,IR_RETWEETED_MID,IR_RETWEETED_URL,IR_STATUS_BODY  
 
 INTO OUTFILE '/home/mysql/data/sinawb20120724/111101.txt' 
 
 FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '\\'  
 
 LINES TERMINATED BY '\n' 
 
 FROM TB_SINA_STATUS   
 
 WHERE ir_created_at >='2011-11-01 00:00:00' and ir_created_at <'2011-11-01 23:59:59' 
 
 LOAD DATA  LOCAL INFILE '/home/mysql/data/sinawb20120724/111101.txt'  
 
 IGNORE INTO TABLE `NEW_TB_SINA_STATUS`  
 
 CHARACTER SET UTF8   
 
 FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '\\'  
 
 LINES TERMINATED BY '\n'

最后此篇关于MySQL下海量数据的迁移步骤分享的文章就讲到这里了,如果你想了解更多关于MySQL下海量数据的迁移步骤分享的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐： MySQL数据库设置远程访问权限方法小结

文章推荐： MySQL定时执行脚本(计划任务)命令实例

文章推荐： mysql 新增、删除用户和权限分配

文章推荐： MySQL的Grant命令详解

sails.js - 迁移 Sequelize 迁移
我最近开始从事一个 Sails 项目。它目前在迁移表下具有以下格式的迁移。 20160826122004-create_users_table.js 'use strict'; module.expo
symfony - Doctrine :迁移:迁移。元数据存储不是最新的，请运行sync-metadata-storage命令解决这个问题
当我尝试迁移时 doctrine:migrations:migrate ，我收到此异常:“元数据存储不是最新的，请运行 sync-metadata-storage 命令来解决此问题。”。这仅在尝试在生
MarkLogic 迁移
我在 ec2 linux 7 上有一个 MarkLogic 服务器。我想将它迁移到 linux 6。我将 ebs 移动到新的 linux 6 并将其安装在 /var/opt/MarkLogic . 我
OpenID 迁移
我对 OpenID 很好奇。虽然我同意统一凭证的想法很棒，但我有一些保留意见。什么是防止 OpenID 提供商发疯并持有他们拥有的 OpenID 帐户直到您支付 n 美元？如果我决定不喜欢这个提供商，
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
Yii2 迁移 - 在另一列之后添加列
我想通过在 Yii2 中的迁移添加一个新列，使用以下代码: public function up() { $this->addColumn('news', 'priority', $this-
android - SQLDelight 迁移
我正在尝试在 SQLDelight 的表中添加更多列。我做了一个迁移文件 1.sqm .在迁移文件中，它给出了找不到表的错误。我的 build.gradle.kts: sqldelight {
使用单一架构和多个项目进行 Flyway 迁移
我有一个与 Flyway DB 迁移相关的问题。通常如何管理处理相同 DB 模式的多个项目(微服务)。每个项目中的 Flyway 迁移脚本如果被其他项目修改，则不允许启动。他们是否有任何文档或最佳实践
php - 迁移 - 自动创建数据库
我是 Laravel 的新手。我做了一份待办事项申请作为一项学校作业。我们必须使用迁移来创建我们的数据库。我使用迁移创建了 2 个表。我的问题是:如果你第一次在你的电脑上运行这个项目，有没有办法自动
laravel - 迁移:无法添加外键约束
我正在尝试在 Laravel 中创建外键，但是当我使用 artisan 迁移表时，出现以下错误: [Illuminate\Database\QueryException] SQLSTATE[HY000
Django 迁移 - 禁用系统检查
我从 Django 1.7 升级到 Django 1.9。我有多次迁移。升级后我无法再创建新的数据库。问题是“django manage.py migrate”运行检查。检查导入应用程序 URL。这
具有多个数据库的 Django 迁移
我在创建数据迁移方面遇到了困难。我的应用程序使用两个数据库。我在 settings.py 中配置了数据库，并创建了一个像 Django docs 中一样的路由器. # settings.py DB_H
postgresql - 努力与gorm手动创建关系/迁移
我有一个像这样的sql结构: CREATE TABLE resources ( id SERIAL PRIMARY KEY, title TEXT NOT NULL, created_at
Laravel 迁移 - 更新枚举选项
我正在尝试使用模式构建器向表添加枚举选项(不丢失当前数据集)。我真正能够找到的关于列更改的唯一信息是 http://www.flipflops.org/2013/05/25/modify-an-ex
c++ - 迁移 am2cmake
我尝试转移到一些 CMake 程序中，并且有一个从 xml 生成头文件的函数。生成文件.am adaptor_glue.hpp: dbus_introspect.xml $(DBUSXX_X
ios - 迁移 NSPersistentStore
我想将文件移至我的 iOS 应用程序的 CoreData 存储 ../Library/Application Support/MyApp/ 至 ../Documents/Stores/ 我可以使用 N
mysql - NetSuite 迁移
有没有人对数据迁移进出 NetSuite 有丰富的经验？我必须将 DB2 表导出到 MySQL，处理数据，然后导出到一个 CSV 文件中。然后获取帐户的 CSV 文件并再次操作数据以使帐户从我们的旧系
python - Django 迁移
我正在尝试在 Django 上建立一个博客。我已经走到了创建模型的地步。他们在这里: from django.db import models import uuid class Users(mode
html - HTTPS 迁移
我最近使用 bluehost 上的 AutoSSL 工具将网站迁移到 HTTPS。我在内容中看到一些失真，例如缺少背景颜色、表格位移、缺少_logos 等。有谁知道 HTTPS 迁移效果如何影响样式

首页

博学

6Ren·AI

商城

MySQL下海量数据的迁移步骤分享