- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
原始问题
背景
众所周知,SQLite needs to be fine tuned以实现大约 50k 插入/秒的插入速度。这里有很多关于缓慢插入速度和大量建议和基准的问题。
还有claims that SQLite can handle large amounts of data ,有报告称 50+ GB 不会导致正确设置的任何问题。
我已经按照此处和其他地方的建议来实现这些速度,并且我对 35k-45k 插入/秒感到满意。我遇到的问题是所有的基准测试只展示了 < 1m 记录的快速插入速度。我看到的是插入速度似乎与表大小成反比。
问题
我的用例需要在链接表中存储 500m 到 1b 元组( [x_id, y_id, z_id]
)数年(100 万行/天)。这些值都是 1 到 2,000,000 之间的整数 ID。 z_id
上有一个索引.
前 10m 行的性能很好,大约 35k 次插入/秒,但是当表有大约 20m 行时,性能开始受到影响。我现在看到大约 100 个插入/秒。
table 的大小不是特别大。对于 20m 行,磁盘大小约为 500MB。
该项目是用 Perl 编写的。
题
这是 SQLite 中大表的现实,还是有什么秘诀可以为超过 1000 万行的表保持高插入率?
如果可能,我想避免的已知解决方法
SQLITE_FCNTL_CHUNK_SIZE
:我不会 C (?!),所以我不想为了完成这件事而学习它。但是,我看不到使用 Perl 设置此参数的任何方法。 cache_size
编译指示:10,000 page_size
编译指示:4,096 temp_store
pragma: 内存 journal_mode
pragma: 删除 synchronous
pragma: 关闭 insert-select
声明。因此,插入时间不反射(reflect)
z
中的唯一列确定分配给 4,096 个数据库之一。由于我的用例本质上主要是归档,因此架构不会改变,查询也永远不需要分片遍历。数据库大小有限制,因为极旧的数据将被减少并最终被丢弃,所以这种分片、pragma 设置甚至一些非规范化的组合给了我一个很好的平衡,基于上面的基准测试,将保持插入速度至少 10k 次插入/秒。
最佳答案
如果您的要求是查找特定的 z_id
和 x_ids
和 y_ids
链接到它(与快速选择范围 z_ids
不同),您可以查看非索引哈希表嵌套关系数据库,它可以让您立即找到特定的 z_id
为了得到它的y_ids
和 x_ids
-- 没有索引开销以及随着索引增长而在插入过程中随之而来的性能下降。为了避免结块(又名桶冲突),请选择一种 key 散列算法,该算法对 z_id
的数字施加最大权重。变化最大(右加权)。
附言例如,使用 b 树的数据库最初可能比使用线性散列的数据库更快,但随着 b 树上的性能开始下降,插入性能将与线性散列保持一致。
P.P.S.回答@kawing-chiu 的问题:这里相关的核心特征是这样的数据库依赖于所谓的“稀疏”表,其中记录的物理位置由散列算法确定,该算法将记录键作为输入。这种方法允许直接查找表中记录的位置,而无需索引的中介。由于不需要遍历索引或重新平衡索引,插入时间保持不变,因为表变得更加密集。相比之下,使用 b 树,插入时间会随着索引树的增长而降低。具有大量并发插入的 OLTP 应用程序可以从这种稀疏表方法中受益。记录分散在整个表格中。分散在稀疏表的“苔原”中的记录的缺点是收集具有共同值(例如邮政编码)的大量记录可能会更慢。散列稀疏表方法经过优化以插入和检索单个记录,并检索相关记录的网络,而不是具有某些共同字段值的大型记录集。
嵌套关系数据库允许在一行的列中包含元组。
关于database - SQLite 插入速度随着索引数量的增加而变慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15778716/
我正在开发一个 SQLite 数据库。数据库已经填满了,但我想重构它。这是我需要做的一个示例: 我目前有一张 table : CREATE TABLE Cars (ID INTEGER PRIMARY
我正在使用 Mono、SQLite、Dapper 和 Dapper 扩展。我可以从数据库中读取数据,但插入不起作用。我正在使用 sqlite 的 Mono 驱动程序。 错误并不能提供太多信息,至少对我
我有一个使用 SQLite 的 Windows Phone 8 应用程序。该应用程序具有许多数据库功能,并包含一个 sqlite 数据库文件,在运行该应用程序时,该文件将被复制到本地文件夹并进行访问。
为 sqlite 创建索引时有排序顺序。 https://sqlite.org/lang_createindex.html Each column name or expression can be
顾名思义,我怀疑如果有一些引用被删除的表会发生什么,例如表的某些字段的索引。 SQLite是否会自动处理?在执行drop命令之前,数据库所有者是否应注意任何实例? 最佳答案 我认为不需要家政服务。 S
我想知道是否有可能将从计数中获得的整数转换为REAL 类似于以下内容(尽管这不起作用) SELECT CAST (COUNT (ColumnA) AS Count) AS REAL) FROM Tab
我无法在SQLite数据库上执行一些更新。我正在Windows上使用SQLite 3 Shell。 我正在运行以下命令: update resovled_chrom_counts set genus
我知道SQLite中的触发器顺序是不确定的(您不能确定将首先执行哪个触发器),但是表约束和触发器之间的关系又如何呢? 我的意思是,假设我在一个列中有一个UNIQUE(或CHECK)约束,并且在该表上有
我的 CustomTags 表可能有一系列“临时”记录,其中 Tag_ID 为 0,并且 Tag_Number 将有一些五位数的值。 定期,我想清理我的 Sqlite 表以删除这些临时值。 例如,我可
我有A,B,C和D的记录。 我的SQL1 SELECT * FROM main_table order by main_table.date desc limit 2返回A和B。 我的SQL2 SEL
select round(836.0)返回836.0 我如何删除sqlite查询中的尾随零。 836.00应该是836 836.440应该是836.44 最佳答案 如果需要836.44,则需要十进制返
我正在研究RQDA中的文本,并且正在使用Firefox SQLite Manager访问数据库,以便可以更轻松地搜索文件。我创建并填充了虚拟表: CREATE VIRTUAL TABLE texts
我有这样的数据: table1 id | part | price 1 | ox900 | 100 2 | ox980 | 200 和 table2 id | part | price 1
我正在尝试将一些数据插入现有的SQLite表中。该表和数据库是使用相同的API创建的,但是由于某种原因,插入操作无效,并且从不给我任何错误消息。 我正在BlackBerry 9550模拟器上对此进行测
例如,我在名为SALARY的列中插入一个值。如果插入的值大于1000,我想将字符串HIGH插入到RANK列中,否则将插入LOW中。 我可以使用SQLite做到吗? 最佳答案 在插入之前使用触发器,然后
假设我有一个包含三列A,B,C的表t1,其中(A,B)包含唯一键(具有数十万行)。由于90%的查询将采用SELECT C FROM t1 WHERE A =?和B = ?,我想我要为A,B和C提供覆盖
在一个SQLite3数据库中,我有一个表“ projects”,其id字段由以下方式组成: [user id]_[user's project id] 例如,用户ID = 45,这是一些数据: 45_
我了解PRAGMA foreign_key和ON DELETE RESTRICT/NO ACTION的概念,但是我面临的是另一种情况。 我需要删除一个父行,但保持与之关联的子行。例如: CREATE
我的c#应用程序从Web服务1读取文件列表,并将完整的文件名插入table1,然后从第二个Web服务读取list并将它们插入到table2。 这些表具有相同的结构,如下所示: create table
我在以下情况下尝试将Record1的ID更新为Record2的ID: 两个表中的名称相同,并且 在Record2中权重更大。 记录1 | ID | Weight | Name | |----|----
我是一名优秀的程序员,十分优秀!