python - 为什么插入速度随着数据库的增长而减慢？-6ren

python - 为什么插入速度随着数据库的增长而减慢？

转载作者：太空宇宙更新时间：2023-11-03 14:35:56

28

4

我正在做一个生成大量数据的个人项目，我认为将其存储在本地数据库中是有意义的。但是，随着数据库的增长，我发现速度急剧下降，这使得它无法运行。

我做了一个简单的测试来展示我在做什么。我制作了一本字典，我在其中进行了一系列本地处理(大约 100 万个条目)，然后将其批量插入到 SQLite 数据库中，然后循环并再次执行所有操作。这是代码:

from collections import defaultdict
import sqlite3
import datetime
import random

def log(s):
    now = datetime.datetime.now()
    print(str(now) + ": " + str(s))

def create_table():
    conn = create_connection()
    with conn:
        cursor = conn.cursor()

        sql = """
            CREATE TABLE IF NOT EXISTS testing (
                test text PRIMARY KEY,
                number integer
            );"""
        cursor.execute(sql)
    conn.close()

def insert_many(local_db):
    sql = """INSERT INTO testing(test, number) VALUES(?, ?) ON CONFLICT(test) DO UPDATE SET number=number+?;"""

    inserts = []
    for key, value in local_db.items():
        inserts.append((key, value, value))

    conn = create_connection()
    with conn:
        cursor = conn.cursor()
        cursor.executemany(sql, inserts)
    conn.close()

def main():
    i = 0
    log("Starting to process records")
    for i in range(1, 21):
        local_db = defaultdict(int)
        for j in range(0, 1000000):
            s = "Testing insertion " + str(random.randrange(100000000))
            local_db[s] += 1
        log("Created local DB for " + str(1000000 * i) + " records")
        insert_many(local_db)
        log("Finished inserting " + str(1000000 * i) + " records")

def create_connection():
    conn = None
    try:
        conn = sqlite3.connect('/home/testing.db')
    except Error as e:
        print(e)

    return conn

if __name__ == '__main__':
    create_table()
    main()

这运行了一秒钟，然后像疯了似的慢了下来。这是我刚刚得到的输出:

2019-10-23 15:28:59.211036: Starting to process records
2019-10-23 15:29:01.308668: Created local DB for 1000000 records
2019-10-23 15:29:10.147762: Finished inserting 1000000 records
2019-10-23 15:29:12.258012: Created local DB for 2000000 records
2019-10-23 15:29:28.752352: Finished inserting 2000000 records
2019-10-23 15:29:30.853128: Created local DB for 3000000 records
2019-10-23 15:39:12.826357: Finished inserting 3000000 records
2019-10-23 15:39:14.932100: Created local DB for 4000000 records
2019-10-23 17:21:37.257651: Finished inserting 4000000 records
...

如您所见，前一百万次插入需要 9 秒，接下来的一百万次需要 16 秒，然后激增到 10 分钟，然后是 1 小时 40 分钟(!)。是不是我正在做的一些奇怪的事情导致了这种疯狂的减速，或者这是 sqlite 的限制？

最佳答案

(更多的是扩展评论而不是答案)

SQLite 只支持 BTree 索引。对于可能具有不同长度的字符串，树存储行 ID。读取树的复杂度为 O(log(n))，其中 n 是表的长度，但是，它会乘以从表中读取和比较字符串值的复杂度。因此，除非有充分的理由，否则最好将整数字段作为主键。

在这种情况下，使情况变得更糟的是，您要插入的字符串具有相当长的共享前缀(“测试插入”)，因此搜索第一个不匹配项需要更长的时间。

加速建议，按预期效果大小排序:

真正的数据库(MariaDB、Postgres)支持哈希索引，这将解决这个问题。
禁用自动提交(跳过不必要的磁盘写入；非常昂贵)
反转文本字符串(固定文本之前的数字)，甚至只保留数字部分
使用批量插入(一条语句中的多条记录)

@peak 的回答通过不使用索引避免了整个问题。如果根本不需要索引，这绝对是一种方法。

关于python - 为什么插入速度随着数据库的增长而减慢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58527467/

28

4

0

文章推荐： python - 集合.deque : why q[9999] is faster than q[-1]?

文章推荐： java - 错误 - trustAnchors 参数必须非空

文章推荐： ssl - SOAP-UI javax.net.ssl.SSLException

javascript - 如果
增长，则让
增长
当我输入内容时，如何移动 p 段落下方的所有元素，即 contenteditable。这是我的代码: body, html { margin: 0; padding: 0; backgr
javascript - 当内部 div 增长/收缩时使外部 div 增长/收缩但在它们之间保持边距
我要解决的问题: 我有一个包含 div 的外部 div。 content 内部和外部 div 之间的边距应始终相同。当内部 div 增长/收缩时，外部 div
c - 结构末尾的填充物用于 future 增长
这document Ulrich Drepper 称为“图书馆设计、实现和维护的良好实践”(第 5 页底部): [...] the type definition should always crea
qt - QPainterPath 增长/扩展
有什么方法可以获取 QPainterPath 并将其展开，就像 Photoshop 中的“选择”>“增长...”(或“展开...”)命令一样？我想获取从 QGraphicsItem::shape 返
c - 增长(和收缩)内存池
假设，为了问题的目的，我们有一个内存池，最初分配了 n 个 block 。但是，当达到容量时，池想要增长并变成原来大小的两倍 (2n)。现在可以使用 C 中的 realloc 完成此调整大小操作，但
c - 增长(和收缩)内存池
假设，为了问题的目的，我们有一个内存池，最初分配了 n 个 block 。但是，当达到容量时，池想要增长并变成原来大小的两倍 (2n)。现在可以使用 C 中的 realloc 完成此调整大小操作，但
c++ - 增长 managed_shared_memory 段后出现段错误
我正在研究 boost 库的共享内存部分，为更大的项目做准备。我需要一个共享内存段，在初始化时我不一定知道它的大小，所以我的计划是增加这个段。我的初始实现有一个存储在共享内存中的 boost::in
css - 阻止 FlexChild 增长
这个问题在这里已经有了答案: How to disable equal height columns in Flexbox? (4 个答案) What are the differences bet
javascript - 防止表从长 td 增长
我有一个包含子表的表。我不希望子表影响表格的宽度——在溢出的情况下，我希望两者独立滚动。此外，由于子表是基于切换显示的，所以我不希望主表行根据子表是否可见而跳转 Here's代码笔。我想我可以用 t
html - 防止带有进度条的 flexbox 增长
我有一个带栏的页面设计，它可以有一个、两个或三个栏。这些列的大小应相同。为此我使用了 flexbox，它很好，允许我添加/删除我的列并让浏览器处理列宽的大小调整。现在，当列中的文本大于列的宽度时，
python - 增长 numpy 数值数组的最快方法
要求: 我需要根据数据增长一个任意大的数组。我可以猜测大小(大约 100-200)，但不能保证数组每次都能适合一旦它增长到最终大小，我需要对其执行数值计算，因此我更愿意最终得到一个二维 numpy
python - 增长 numpy 数组
我有一个 3x256 规则的规则集。每个规则映射到一个 3x3 的值网格，这些值本身就是规则。规则示例: 0 -> [[0,0,0],[0,1,0],[0,0,0]] 1 -> [[1,1,1],
html - 了解 flex 增长
我有 3 个 div，如果我给前两个 div flex: 0.5，如果我给了 flex-wrap: wrap，最后一个 div 应该移动到下一行>。如果我错了，请指正。以下是我的 html/css:
css - 如何使用 flex 增长？
在文档和 Bootstrap v4 问题中 (here) ，我看不到任何支持 flex-grow 的计划，例如语法如下: I use all the space lef
python - 增长 numpy 数值数组的最快方法
要求: 我需要从数据中增加一个任意大的数组。我可以猜测大小(大约 100-200)，但不能保证每次都适合数组一旦它增长到最终大小，我需要对其执行数值计算，因此我希望最终得到一个二维 numpy 数
arrays - 增长 slice 时扩展内存(逻辑增长基础阵列的容量)
我知道(并在互联网上阅读-包括此资源)。增加内存的逻辑是:如果len数组小于1024-golang将array乘以2，否则将len乘以1.25(并且我们在源代码中看到了这个问题https://gith
c# - 如何阻止 WPF TextBox 增长
当输入长文本时，WPF TextBox 控件会增长。这个问题已经在 Stackoverflow 中提出了我也引用了一些答案，但我仍然没有找到有效的正确答案。 Here提到了同样的问题，但没有针对此
java - Vaadin 13 Flex 增长
我在使用 Vaadin HorizonalLayout 时遇到问题 - 我希望左侧组件填充大部分水平空间，如 Fiddle 所示但是，当我运行 Vaadin 应用程序时，这两个组件会平分屏幕。
jquery - HTML - 增长/过渡图像/颜色以填充整个网页
关于这个fiddle , 当我点击 a href在这种情况下这是一个图像，我希望图像从 div 开始增长/过渡以通过过渡/缩放填充整个页面它被放置在其中。如果这不可能，我想用 div 的背景颜色填充页
javascript - 滚动、增长、缩小、随机放置图像选取框？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q

首页

博学

6Ren·AI

商城

python - 为什么插入速度随着数据库的增长而减慢？