database-design - 使用 sqlite3 构建大规模 OR/AI(信息检索/人工智能)系统-6ren

database-design - 使用 sqlite3 构建大规模 OR/AI(信息检索/人工智能)系统

转载作者：行者123 更新时间：2023-12-03 18:27:18

27

4

这个问题与不同数据库引擎对 IR 和 AI 研究的适用性有关。下面的两个重要问题以粗体显示。

我正在使用 python 将 17 gig 纯文本语料库加载到 sqlite3 中。行项目填充三个表，单个标准化步骤为 1..*，平均每行 5 个条目。我的 table 上没有索引。我没有将插入语句批处理在一起，我可能应该这样做，但我只是在一百万行之后调用 sqlite 的提交消息(因此每行插入 3-8 个表)。事后看来，我可能应该将它们一起批处理成 1000 个值/插入。提交可能没有像我想象的那样做，它可能每隔几个条目就进行一次内部提交。

数据加载从 CPU 限制开始，但现在 DB 大小为 33 gig，它似乎受 IO 限制。明文语料库和 db 文件都在同一个磁盘上。我假设 sqlite3 在预先填充它的页面时非常保守，并且现在正在左右和中心拆分页面。

无论如何，我现在可能会坚持使用 sqlite3，我猜与企业级数据库相比的优势是能够临时创建多个数据库文件并将文件放在不同的磁盘上。传统上，我假设大多数人使用 postgres/Xapian/Sql Server 或 Oracle 来处理这类东西。

从经验来看 sqlite3 是 IR/AI 系统创建的障碍还是祝福？ ，我的意思是我什至还没有创建索引，数据已经加载了 14 个小时。如果我要稳定地遇到如此巨大的加载时间，我可能会坚持使用 Sql Server 来进行 future 的原型(prototype)设计。 我知道 berkeley db 也有一个 sqlite3 接口(interface)，它应该具有事务性 mvcc 数据库的性能特征，有没有人有经验解决这些问题？

编辑

正如 James 提醒我的那样，事务切换从等式中删除了 2 次同步磁盘写入，因此我将禁用日志，其次我将禁用同步设置，以便引擎有机会在自己空闲时插入行，这意味着我希望它的行为就像我在批处理行插入一样。

C++ 可能只是用于数据加载的全面更好的语言(尤其是当涉及到 3.4 亿行数据时)，我预计大量无用的周期被浪费在内存复制和分配上。如果我错了，请纠正我，因为在 python 中编写一次性代码会更快。

最佳答案

只是一个建议，但我会认为有这么多数据(除非你有一个非常简单的访问模式)，任何“真正的”数据库都会严重优于 sqlite3(尽管做测试......)，(里程会因引擎类型和可用的系统资源 - 内存、CPU)。另外 - 如果你不使用事务 Sqlite 将在每次插入时执行一个事务。每个事务需要 2 次磁盘旋转，因此驱动器速度是这里的限制因素。尝试做一个史诗般的交易，看看需要多长时间。如果系统在数据导入过程中下降的风险(或数据丢失的危险)很小，那么您无需担心，您无需每 1K 行提交一次。

我意识到这并不能完全回答您的问题，但我希望它对您有所帮助。

关于database-design - 使用 sqlite3 构建大规模 OR/AI(信息检索/人工智能)系统，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8271051/

27

4

0

文章推荐： perl - 在 OSX Lion Apache 服务器上设置 mod_perl

文章推荐： sqlite - Firefox中的WebSQL

文章推荐： wpf - ResourceDictionary 中 DataTemplate 的代码隐藏

文章推荐： django modelForm，只需要保存选定的字段

designer - 设置默认值 power Designer
我正在用power designer创建一个物理模型，我想将默认值添加到我的Mysql表中。有可能吗，有人加了默认值？谢谢最佳答案有可能，我发现“列属性”并不容易方法如下: 选择表格(单击
design-principles - 任何好的应用程序应该关心什么特性 'By-Design'
关闭。这个问题是 opinion-based 。它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文来回答。 2年前关闭。 Improve t
material-design - Material Design 对话框应该如何动画化？
我正在编写一个采用 Material Design 布局的应用程序，但找不到任何关于如何将对话框动画显示到屏幕上的指南。这表明盒子应该只是“砰”的一声存在，但这似乎违背了设计的精神，包括动画和触觉。
C# [Design] 丢失.. 只剩下 .designer
我做了一个巨大的掠夺，不小心丢失了我的*.cs(设计文件)..我刚刚得到了*.designer文件。我能否反过来，仅使用 .designer 文件以某种方式创 build 计文件 (*.cs)，还是
seo - 我是否需要 "Web Design [city-name]"和 "Website Design [city-name]"的页面，或者我可以使用 "Website Design [city-name]"对两者进行排名？
如果 Google 的关键字规划器向我显示关键字“Web Design [city-name]”获得约 880 次搜索，而“Website Design [city-name]”获得约 620 次搜索
material-design - 处理动态添加的元素 Material Design Lite
首先，代码: $(document).ready(function() { $('#member_pattern').hide(); $('.add-member').click(function()
system-design - 采访: System/API design
大型软件公司之一问了这个问题。我想出了一个简单的解决方案，我想知道其他人对该解决方案有何看法。 You are supposed to design an API and a backend for
material-design - 计算所有 Material Design 高程的阴影值
在最新的 Material Design 文档 (https://www.google.com/design/spec/what-is-material/elevation-shadows.html#
database-design - MongoDB Schema Design - 许多小文档还是更少的大文档？
背景我正在对从我们的 RDBMS 数据库到 MongoDB 的转换进行原型(prototype)设计。在进行非规范化时，似乎我有两种选择，一种会导致许多(数百万)个小文档，另一种会导致更少(数十万)
qt-designer - Qt Designer 使用 QWebEngineView 崩溃
Qt Designer (5.11.2) 在选择 QWebEngineView-Widget 时崩溃。我正在创建一个对话框，以将其作为 .ui 文件包含在 QGIS 3 中。在表单中，我想使用 QW
material-design-lite - Material Design Lite 汉堡菜单不在标题中居中
我直接从 getmdl.io(组件页面)和所有设备(多台 PC、浏览器、手机等)复制代码，汉堡菜单不在标题中居中。我似乎无法隔离 css 中的菜单图标来重新对齐它。 getmdl.io 上的所有组件代
material-design - 如何为SPA动态初始化materialize design lite(google)的组件？
如何为 SPA 动态初始化 materialize design lite (google) 的组件？当我在 View 中动态初始化组件时，JS 没有初始化。正如我已经尝试过使用 componentH
material-design-lite - Material Design Lite 旋转木马
我正在使用 Angular 4 构建一个 Web 应用程序。对于设计，我使用的是 Material Design lite。但是，我想使用 MDL 实现一个交互式轮播，它给我流畅的外观和感觉，并且与我
material-design-lite - Material Design Lite 还是聚合物入门套件？
它看起来像 Polymer Starter Kit包含比 Material Design Lite 更多的组件，并且现在可用。由于两者都是符合 Material Design 理念的 Google 项
material-design-lite - Material Design Lite 样式输入字段
我在设置 mdl-textfield 样式时遇到了一些困难。具体来说，设置 float 标签的大小和颜色，以及按下输入字段后动画的高度和颜色。实际上，这是我从组件列表中获取的起点。 https:/
database-design - 好友列表 : Relational Database Table Design
所以，好友列表的现代概念: 假设我们有一个名为 Person 的表。现在，那个 Person 需要有很多伙伴(其中每个伙伴也在 person 类中)。构建关系的最明显方法是通过连接表。即 buddyI
material-design-lite - Material Design Lite 导航
如何在导航中创建子菜单项？ Link Link Link Link 我不能用用它。什么是正确的类？最佳答案 MDL 似乎还没有原生支持子菜单。然而
design-patterns - 如何解决像 "design a vending machine"这样的设计问题
我想知道我应该遵循哪些步骤来解决设计自动售货机等问题并提出许多设计文档(如用例、序列图、类图)。是否有任何我可以阅读的来源/链接，其中讨论了如何逐步进行。谢谢。最佳答案我不确定是否有任何普遍接受
design-patterns - 重新哈希 : Accounting Software Design Patterns
早在 10 月份，Kristopher Johnson 就询问了 Accounting Software Design Patterns 他收到了几个答案，但基本上都是一样的，都指向Martin Fo
c# - 为什么 System.Design 中的许多 Designer 类都标记为内部类？
我一直在为我们的产品开发一些组件，其中之一是基于流布局面板。我想做的是为它提供一个自定义设计器，但不会丢失其默认设计器 (System.Windows.Forms.Design.FlowLayout

首页

博学

6Ren·AI

商城

database-design - 使用 sqlite3 构建大规模 OR/AI(信息检索/人工智能)系统