python - 在 sqlite3/Python 中的 "select"期间缓存了哪些数据，这可以从一开始就手动完成吗？-6ren

python - 在 sqlite3/Python 中的 "select"期间缓存了哪些数据，这可以从一开始就手动完成吗？

转载作者：行者123 更新时间：2023-11-28 19:26:25

27

4

假设您有一个包含数千行的 sqlite 数据库——每行都包含或引用一个相当大的、唯一的 blob——并且您想要对该集合进行稀疏采样，根据 rowid 或某个等效的主键提取行。我发现我第一次尝试在连接后(从 20k 行中)获取几个(500)个数据点时，调用需要 10 多秒才能返回；并且，随着每次连续迭代，调用变得越来越短，直到在 50-100 次此类查询后收敛到大约 100 毫秒。

显然，sqlite 或它的 python 包装器必须在缓存……某物。如果我清除不活动的内存(我在 OS X 中，但我认为 Linux 有一个类似的 if-not-identical“清除”命令？)，可以准确地复制该行为。问题是，索引没有解决的缓存是什么？此外，是否有可能从一开始就自动将加速这些查询的任何信息提取到内存中？或者还有其他我完全错过的东西吗？

一些注意事项，以防有人不能立即知道答案......

每个 blob 大约 40kB，是一个很大的问题源。我在下面为任何想在家一起玩的人准备了一些代码，但我更幸运地为可排序的信息和数据保留了单独的表格。这引入了一个内部联接，但它通常比将它们全部放在一起要好(尽管如果有人觉得这是错误的，我很想听听)。如果没有内部连接/数据获取，事情从 4 秒开始，然后迅速下降到 3 毫秒。
我觉得这可能是一个 PRAGMA 的东西，但我在网络的荒野中摆弄了其他人建议的一些设置，并没有真正看到任何好处。
内存数据库不是一种选择。一方面，我正在尝试跨线程共享(这对于内存中来说实际上可能不是问题......？不确定)，但更重要的是，数据库文件通常约为 17 GB。所以，这就结束了。
话虽如此，缓存合理数量的信息没有问题。在几十次调用之后，非事件内存无论如何都会变得有些臃肿，但我宁愿 (1) 正确地 (2) 高效地做到这一点。

好的，现在为任何想尝试复制事物的人提供一些代码。您应该能够将其复制并粘贴到独立脚本中(这基本上就是我所做的，保存格式)。

import sqlite3
import numpy as np
import time

ref_uid_index = """CREATE INDEX ref_uid_idx
                   ON data(ref_uid)"""


def populate_db_split(db_file, num_classes=10, num_points=20000, VERBOSE=False):
    def_schema_split0 = """
    CREATE TABLE main (
        uid            INTEGER PRIMARY KEY,
        name           TEXT,
        label          INTEGER,
        ignore         INTEGER default 0,
        fold           INTEGER default 0)"""

    def_schema_split1 = """
        CREATE TABLE data (
            uid            INTEGER PRIMARY KEY,
            ref_uid        INTEGER REFERENCES main(uid),
            data           BLOB)"""

    def_insert_split0 = """
        INSERT INTO main (name, label, fold)
            VALUES (?,?,?)"""

    def_insert_split1 = """
        INSERT INTO data (ref_uid, data)
            VALUES (?,?)"""

    blob_size= 5000
    k_folds = 5
    some_names = ['apple', 'banana', 'cherry', 'date']

    dbconn = sqlite3.connect(db_file)
    dbconn.execute(def_schema_split0)
    dbconn.execute(def_schema_split1)

    rng = np.random.RandomState()
    for n in range(num_points):
        if n%1000 == 0 and VERBOSE:
            print n

        # Make up some data
        data = buffer(rng.rand(blob_size).astype(float))
        fold = rng.randint(k_folds)
        label = rng.randint(num_classes)
        rng.shuffle(some_names)

        # And add it
        dbconn.execute(def_insert_split0,[some_names[0], label, fold])
        ref_uid = dbconn.execute("SELECT uid FROM main WHERE rowid=last_insert_rowid()").fetchone()[0]
        dbconn.execute(def_insert_split1,[ref_uid,data])

    dbconn.execute(ref_uid_index)
    dbconn.commit()
    return dbconn

def timeit_join(dbconn, n_times=10, num_rows=500):
    qmarks = "?,"*(num_rows-1)+"?"

    q_join = """SELECT data.data, main.uid, main.label
              FROM data INNER JOIN main ON main.uid=data.ref_uid
              WHERE main.uid IN (%s)"""%qmarks

    row_max = dbconn.execute("SELECT MAX(rowid) from main").fetchone()[0]

    tstamps = []
    for n in range(n_times):
        now = time.time()
        uids = np.random.randint(low=1,high=row_max,size=num_rows).tolist()
        res = dbconn.execute(q_join, uids).fetchall()

        tstamps += [time.time()-now]
        print tstamps[-1]

现在，如果您想复制一些东西，请执行以下操作。在我的机器上，这会创建一个 800MB 的数据库并生成如下所示的内容。

>>> db = populate_db_split('/some/file/path.db')
>>> timeit_join(db)
12.0593519211
5.56209111214
3.51154184341
2.20699000359
1.73895692825
1.18351387978
1.27329611778
0.934082984924
0.780968904495
0.834318161011

那么……知识渊博的圣人，您怎么说？

最佳答案

GB 大小的数据库文件永远不会完全加载到内存中。它们被分成所谓的页面树。这些页面缓存在内存中，默认是2000页。

您可以使用以下语句，例如将 1kB 大小的缓存页面数量翻倍。

    conn.execute("""PRAGMA cache_size = 4000""")

正如您在函数描述中所见，该连接再次拥有了最近 100 条语句的缓存:

    sqlite3.connect(database[, timeout, detect_types, isolation_level, check_same_thread, factory, cached_statements])

cached_statements 需要整数，默认为 100。

除了设置缓存大小之外，您不太可能从应用程序启动时主动缓存语句或页面中获益。

关于python - 在 sqlite3/Python 中的 "select"期间缓存了哪些数据，这可以从一开始就手动完成吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10613006/

27

4

0

文章推荐： javascript - 无法读取 null 的属性 'innerHTML'

文章推荐： javascript - 自定义 YouTube 播放器嵌入的颜色

文章推荐： python - 获取对象名称的问题

sqlite - 通过将 SQLite 表拆分为两部分并与外键链接来重构 SQLite 表
我正在开发一个 SQLite 数据库。数据库已经填满了，但我想重构它。这是我需要做的一个示例: 我目前有一张 table : CREATE TABLE Cars (ID INTEGER PRIMARY
sqlite - Mono + SQLite + Dapper SQLite 插入期间出现异常
我正在使用 Mono、SQLite、Dapper 和 Dapper 扩展。我可以从数据库中读取数据，但插入不起作用。我正在使用 sqlite 的 Mono 驱动程序。错误并不能提供太多信息，至少对我
sqlite - 在 SQLite.cs 中找不到类型或命名空间 'Sqlite'
我有一个使用 SQLite 的 Windows Phone 8 应用程序。该应用程序具有许多数据库功能，并包含一个 sqlite 数据库文件，在运行该应用程序时，该文件将被复制到本地文件夹并进行访问。
sqlite - sqlite 索引的排序顺序
为 sqlite 创建索引时有排序顺序。 https://sqlite.org/lang_createindex.html Each column name or expression can be
sqlite - SQLite，删除表时需要执行任何管家任务吗？
顾名思义，我怀疑如果有一些引用被删除的表会发生什么，例如表的某些字段的索引。 SQLite是否会自动处理？在执行drop命令之前，数据库所有者是否应注意任何实例？最佳答案我认为不需要家政服务。 S
sqlite - SQLite COUNT作为类型转换
我想知道是否有可能将从计数中获得的整数转换为REAL 类似于以下内容（尽管这不起作用） SELECT CAST (COUNT (ColumnA) AS Count) AS REAL) FROM Tab
sqlite - SQLite-更新命令产生空值
我无法在SQLite数据库上执行一些更新。我正在Windows上使用SQLite 3 Shell。我正在运行以下命令： update resovled_chrom_counts set genus
sqlite - SQLite:表约束和触发器
我知道SQLite中的触发器顺序是不确定的（您不能确定将首先执行哪个触发器），但是表约束和触发器之间的关系又如何呢？我的意思是，假设我在一个列中有一个UNIQUE（或CHECK）约束，并且在该表上有
sqlite - Sqlite 子查询的问题
我的 CustomTags 表可能有一系列“临时”记录，其中 Tag_ID 为 0，并且 Tag_Number 将有一些五位数的值。定期，我想清理我的 Sqlite 表以删除这些临时值。例如，我可
sqlite - SQLite:如何将顺序限制的SQL与左联接查询结合在一起
我有A，B，C和D的记录。我的SQL1 SELECT * FROM main_table order by main_table.date desc limit 2返回A和B。我的SQL2 SEL
sqlite - SQLite-删除十进制的尾随零
select round（836.0）返回836.0 我如何删除sqlite查询中的尾随零。 836.00应该是836 836.440应该是836.44 最佳答案如果需要836.44，则需要十进制返
sqlite - SQLite FTS4代码段参数格式
我正在研究RQDA中的文本，并且正在使用Firefox SQLite Manager访问数据库，以便可以更轻松地搜索文件。我创建并填充了虚拟表： CREATE VIRTUAL TABLE texts
sqlite - 通过聚合联合多个表和组(SQlite)
我有这样的数据: table1 id | part | price 1 | ox900 | 100 2 | ox980 | 200 和 table2 id | part | price 1
sqlite - SQLite Insert在BlackBerry上静默失败
我正在尝试将一些数据插入现有的SQLite表中。该表和数据库是使用相同的API创建的，但是由于某种原因，插入操作无效，并且从不给我任何错误消息。我正在BlackBerry 9550模拟器上对此进行测
sqlite - SQLite。根据另一列的值插入一个值
例如，我在名为SALARY的列中插入一个值。如果插入的值大于1000，我想将字符串HIGH插入到RANK列中，否则将插入LOW中。我可以使用SQLite做到吗？最佳答案在插入之前使用触发器，然后
sqlite - sqlite:唯一覆盖指数
假设我有一个包含三列A，B，C的表t1，其中（A，B）包含唯一键（具有数十万行）。由于90％的查询将采用SELECT C FROM t1 WHERE A =？和B = ?，我想我要为A，B和C提供覆盖
sqlite - SQLite:如何从拆分字符串中获取最大值
在一个SQLite3数据库中，我有一个表“ projects”，其id字段由以下方式组成： [user id]_[user's project id] 例如，用户ID = 45，这是一些数据： 45_
sqlite - SQLite-如何在保留子行的同时删除父行？
我了解PRAGMA foreign_key和ON DELETE RESTRICT/NO ACTION的概念，但是我面临的是另一种情况。我需要删除一个父行，但保持与之关联的子行。例如： CREATE
sqlite - SQLite:如何比较两个表？
我的c＃应用程序从Web服务1读取文件列表，并将完整的文件名插入table1，然后从第二个Web服务读取list并将它们插入到table2。这些表具有相同的结构，如下所示： create table
sqlite - SQLite-根据另一个表的列中的值更新列
我在以下情况下尝试将Record1的ID更新为Record2的ID：两个表中的名称相同，并且在Record2中权重更大。记录1 | ID | Weight | Name | |----|----

首页

博学

6Ren·AI

商城

python - 在 sqlite3/Python 中的 "select"期间缓存了哪些数据，这可以从一开始就手动完成吗？