- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我有一对 (key,value),其中包含 key = string 和 value = int。我尝试从大型文本语料库构建索引,因此我存储了字符串和标识符。对于我从语料库中读取的每个术语,我都必须检查索引以查看它是否存在,因此我需要快速查找(如果可能的话 O(1))。我正在使用 python 字典来创建索引。问题是我用完了 Ram(16GB Ram)。我的替代方法是使用字典,当我的 ram 使用率达到 90% 时,我正在使用 sqlite3 数据库将对存储到磁盘。但是现在的问题是查找时间太长了(先查dict,不行再查磁盘上的数据库)。
我正在考虑切换到 Redis-db。我的问题是,我应该将键值存储为字符串还是应该散列它们然后存储它们? (键是包含(2~100 个字符)的字符串。那么值呢,我应该对它们尝试任何操作吗(值是 int32 数字)?
编辑:
我想存储每个术语及其标识符(唯一对),如果我读取了一个术语并且它存在于索引中,则将其传递。
编辑2:
我尝试使用 redis 但它似乎真的很慢 (?)太慢了。有什么建议吗?
最佳答案
可以很容易地用 C 哈希模拟 Python 字典。 Glib 提供了一个有效的散列实现,通过一些 C 培训不难使用。优点是它会比 Python 字典更快并且(更少)占用内存:
https://developer.gnome.org/glib/2.40/glib-Hash-Tables.html
您还可以添加一些算法来提高性能。例如存储压缩 key 。
更简单的是,您可以将大型文本语料库分段,为每个部分创建一个独立的索引,然后“合并”这些索引。
因此,例如索引 1 将如下所示:
key1 -> page 1, 3, 20
key2 -> page 2, 7
...
索引 2:
key1 -> page 50, 70
key2 -> page 65
...
然后你可以合并索引 1 和 2:
key1 -> page 1, 3, 20, 50, 70
key2 -> page 2, 7, 65
...
您甚至可以并行化到 N 台机器上。
关于python - 数百万对的 Redis/Dictionaries/sqlite3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24844324/
我正在开发一个 SQLite 数据库。数据库已经填满了,但我想重构它。这是我需要做的一个示例: 我目前有一张 table : CREATE TABLE Cars (ID INTEGER PRIMARY
我正在使用 Mono、SQLite、Dapper 和 Dapper 扩展。我可以从数据库中读取数据,但插入不起作用。我正在使用 sqlite 的 Mono 驱动程序。 错误并不能提供太多信息,至少对我
我有一个使用 SQLite 的 Windows Phone 8 应用程序。该应用程序具有许多数据库功能,并包含一个 sqlite 数据库文件,在运行该应用程序时,该文件将被复制到本地文件夹并进行访问。
为 sqlite 创建索引时有排序顺序。 https://sqlite.org/lang_createindex.html Each column name or expression can be
顾名思义,我怀疑如果有一些引用被删除的表会发生什么,例如表的某些字段的索引。 SQLite是否会自动处理?在执行drop命令之前,数据库所有者是否应注意任何实例? 最佳答案 我认为不需要家政服务。 S
我想知道是否有可能将从计数中获得的整数转换为REAL 类似于以下内容(尽管这不起作用) SELECT CAST (COUNT (ColumnA) AS Count) AS REAL) FROM Tab
我无法在SQLite数据库上执行一些更新。我正在Windows上使用SQLite 3 Shell。 我正在运行以下命令: update resovled_chrom_counts set genus
我知道SQLite中的触发器顺序是不确定的(您不能确定将首先执行哪个触发器),但是表约束和触发器之间的关系又如何呢? 我的意思是,假设我在一个列中有一个UNIQUE(或CHECK)约束,并且在该表上有
我的 CustomTags 表可能有一系列“临时”记录,其中 Tag_ID 为 0,并且 Tag_Number 将有一些五位数的值。 定期,我想清理我的 Sqlite 表以删除这些临时值。 例如,我可
我有A,B,C和D的记录。 我的SQL1 SELECT * FROM main_table order by main_table.date desc limit 2返回A和B。 我的SQL2 SEL
select round(836.0)返回836.0 我如何删除sqlite查询中的尾随零。 836.00应该是836 836.440应该是836.44 最佳答案 如果需要836.44,则需要十进制返
我正在研究RQDA中的文本,并且正在使用Firefox SQLite Manager访问数据库,以便可以更轻松地搜索文件。我创建并填充了虚拟表: CREATE VIRTUAL TABLE texts
我有这样的数据: table1 id | part | price 1 | ox900 | 100 2 | ox980 | 200 和 table2 id | part | price 1
我正在尝试将一些数据插入现有的SQLite表中。该表和数据库是使用相同的API创建的,但是由于某种原因,插入操作无效,并且从不给我任何错误消息。 我正在BlackBerry 9550模拟器上对此进行测
例如,我在名为SALARY的列中插入一个值。如果插入的值大于1000,我想将字符串HIGH插入到RANK列中,否则将插入LOW中。 我可以使用SQLite做到吗? 最佳答案 在插入之前使用触发器,然后
假设我有一个包含三列A,B,C的表t1,其中(A,B)包含唯一键(具有数十万行)。由于90%的查询将采用SELECT C FROM t1 WHERE A =?和B = ?,我想我要为A,B和C提供覆盖
在一个SQLite3数据库中,我有一个表“ projects”,其id字段由以下方式组成: [user id]_[user's project id] 例如,用户ID = 45,这是一些数据: 45_
我了解PRAGMA foreign_key和ON DELETE RESTRICT/NO ACTION的概念,但是我面临的是另一种情况。 我需要删除一个父行,但保持与之关联的子行。例如: CREATE
我的c#应用程序从Web服务1读取文件列表,并将完整的文件名插入table1,然后从第二个Web服务读取list并将它们插入到table2。 这些表具有相同的结构,如下所示: create table
我在以下情况下尝试将Record1的ID更新为Record2的ID: 两个表中的名称相同,并且 在Record2中权重更大。 记录1 | ID | Weight | Name | |----|----
我是一名优秀的程序员,十分优秀!