mysql - 插入多行时 commit() 的最佳实践-6ren

mysql - 插入多行时 commit() 的最佳实践

转载作者：可可西里更新时间：2023-11-01 08:45:15

24

4

[情境瞄准]
我们有一个 100 万行的 CSV 数据集。这些需要导入到 mysql 5.6 数据库中，带有 innodb 引擎的表，具有以下列(匹配的 csv 文件):
Column1: bigint(15)
Column2:日期时间

要导入此数据，我们可以使用以下 python 脚本:

#python version: 3.4.3
#mysql connector version: 2.0.4
#Note: this is just a simple example script!

import mysql.connector
import csv

#Set-up db connection
cnx = mysql.connector.connect(user='user', password='secret', database='mydatabase')
cursor = cnx.cursor()

#read/ open csv
reader = csv.reader(open("C:/test.csv", "rt"))

#ignore header
next(reader)

#read CSV and send to mysql
for row in reader:
    id=row[0]
    adate = row[1]
    cursor.execute("""INSERT INTO mytable VALUES ('%s','%s')""" % (id,adate))

#commit the query
cnx.commit()

[问题]
当我将 cnx.commit() 放入 for 循环中时，概念上发生了什么，如下所示:

for row in reader:
    id=row[0]
    adate = row[1]
    cursor.execute("""INSERT INTO mytable VALUES ('%s','%s')""" % (id,adate))    
    cnx.commit()

如果我理解正确的话，这是在每次迭代后强制 mysql 写入与 mysql 将所有内容存储在其缓存中然后发送 commit() - 写入命令之间的区别。
这样做的性能提升/缺点是什么？
您是否遵守任何惯例/最佳实践或实践，为什么？

谢谢!

最佳答案

你已经展示了两个极端的立场。

一个是仅在插入大量行之后才提交。另一种是在每一行之后提交。

这两者的性能都很差。第一个是不好的，因为 MySQL 创建了一个大事务，然后最后必须提交整个事务。这需要大量 RAM 或临时空间。第二个不好，因为它提交了许多小事务。

执行这种批量插入的最佳性能方式是每千行左右提交一次。但这只是比替代方案更难编程。根据我的经验，在每千行左右之后提交比其他方法快几倍，因此值得增加少量额外的复杂性。

执行这种批量加载的另一种快速(但脆弱)的方法是使用 LOAD DATA INFILE，您可以在这里阅读:https://dev.mysql.com/doc/refman/5.6/en/load-data.html

您的 megarow 提交有一个小的变化:MySQL 连接可以设置自动提交模式。在那种情况下，您的第一个示例等同于您的第二个示例。默认情况下，该模式在 python 连接器中禁用。

关于mysql - 插入多行时 commit() 的最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30851797/

24

4

0

文章推荐： mysql - 如何让一个mysql查询使用特定的索引？

文章推荐： c# - 在应用程序/服务关闭/停止之前等待计时器经过事件完成

文章推荐： android - ListView 在 Scroll 上显示错误的项目

文章推荐： c# - 确定 DynamicObject 成员访问的预期类型

git-commit - 如何使用 "git commit -s"命令强制 "git commit"？
我正在寻找一种方法来编写 Signed-off-by:当我提交时自动标记。我尝试通过 .git/config 文件配置它 (Reference) .我把这些代码行: [alias] comm
git - Commit、Commit 和 Push、Commit 和 Sync 之间的区别
我使用的是 visual studio 2013，在提交 C# 代码时我面临 3 个选项。我需要解释每个选项之间关于我的本地存储库与 GitHub 存储库发生的情况的差异。选项 1 表示提交选项
java.sql.SQLException : Could not commit with auto-commit set on at oracle. jdbc.driver.PhysicalConnection.commit(PhysicalConnection.java:4443)
我刚从 classes12.jar 升级到新的 jdbc 驱动程序到 ojdbc7.jar 我的应用在使用 ojdbc7.jar 运行时抛出异常: java.sql.SQLException: Cou
oracle - "commit"和 "commit work"有什么区别？
我问的是 Oracle SQL*PLUS ... 最佳答案没有 :-) Oracle says The WORK keyword is supported for compliance with s
Git checkout to a commit 2 commits before hash
我必须在许多分支、许多存储库上恢复对文件所做的更改。我知道我可以使用 git checkout 哈希文件名，然后推送该更改。问题是，我只知道在我想要恢复的实际提交之前有两次提交。我怎样才能在这之前
git commit -m 与 git commit -am
看起来很简单，但我就是不明白。我在我的应用程序的根目录中。这是我的工作流程。 git add . git commit -m "added a new feature some files chan
Git rebase : fixup multiple commits with one commit
假设我有一个 git 分支，在共享它之前的最后审查中，我发现了一些小错误，例如拼写错误。我想做的是将那个补丁应用为“修复”，但它实际上会影响许多提交，因此在最终历史记录中没有错误的迹象。也就是说，如
mercurial - 如何自定义 'commit message file'生成的 `hg commit`？
当我运行hg commit时，Mercurial会为我的提交消息生成一个文件，如下所示: HG: Enter commit message. Lines beginning with 'HG:' a
SVN : How to split a large commit into several small commits?
我已经为项目创建了一个新的存储库，并向其中添加了一些现有的代码库 (llvm)。该代码库大约有 18,000 个文件，这使得我的初始提交花费了大量时间。 (阅读5小时) 有没有办法将这个巨大的提交分成
Git 审查 : submit particular commit from multiple commits
我在 git review 上得到以下内容: git review You are about to submit multiple commits. This is expected if you
git-commit - git commit --squash 选项有什么作用，为什么会有用？
我一直在寻找一种替代解决方案来压缩分支中的一系列提交。我过去所做的是使用 git rebase -i HEAD~然后选择哪个 promise 进行压缩。通常我 pick编辑最新的提交，并压缩其间的冗余
git - 为什么有时需要 "git commit -a"而不是 "git commit"？
把玩Git和GitHub，我发现有时候一个 git commit -a 需要提交修改过的文件。 (此文件已添加到项目中)。但有时候，只是一个 git commit 会起作用。如果使用 Mercuri
git - 为什么我必须使用 "git commit -a"而不仅仅是 "git commit"？
我正在努力思考 Git 的复杂性。我使用“git clone [url here]”从 GitHub 下载了一个存储库。我做了一些更改，尝试使用“git commit”提交它们。这似乎没有将更改推
git commit 给出错误 : empty commit set passed
当试图恢复到之前的提交时，我尝试了: git revert --no-commit 0766c053..HEAD 然而这给出了一个错误: empty commit set passed 问题错误是什么
mercurial - : is commit A "reachable" from commit B 的 hg 语法是什么
我的存储库的历史非常复杂。我经常发现自己想知道过去的某个提交是“在”还是“可从”某个修订版(通常是我的一个头脑)“进入”或“可访问” 我该怎么做呢？最佳答案您可以使用 revsets syntax
Github Windows : Commit failed: Failed to create a new commit
我有:http://windows.github.com/ 我当前的项目有大约 20k 个文件，大约 150MB(并且不说它有多慢而且我现在什么也做不了)它甚至不允许我提交!我收到此错误:提交失败:无
python - Postgres : cursor. 执行 ("COMMIT") 与 connection.commit()
我正在运行 postgres 9.2 服务器并有一个使用 psycopg 2.5 的 python 客户端。我进行了一些测试，因为我在日志文件中遇到了很多警告:没有正在进行的事务条目。我有一些代码
git - 了解何时使用 git commit -m 和 git commit -am
我的主要问题是总是执行 git commit -am 而不是 git add 是否有意义。然后是 git commit -m? 我知道 -am 表示它将添加修改后的 TRACKED 文件的所有更改。所
git - 如何告诉 `git diff ` 区分过去在 `` 中跟踪的未跟踪文件？
如果我想查看之间的差异和工作目录 (WD)，我运行 % git diff 这通常会做我想做的事，但如果 WD 包含在时被跟踪的文件，它就会这样做。已创建，但现在(或在当前分支中)未被跟踪，则
git - git commit 和 git commit-tree 有什么区别
我正在阅读有关 git 对象的信息:blob、树、提交、标签。为了更好地理解 git 的工作原理，我尝试了一些低级命令，如 write-tree 和 commit-tree。 mkdir 测试； cd

首页

博学

6Ren·AI

商城

mysql - 插入多行时 commit() 的最佳实践