mysql - Rails 批量插入多个表-6ren

mysql - Rails 批量插入多个表

转载作者：可可西里更新时间：2023-11-01 07:09:44

25

4

我有以下场景:我有一些 CSV 文件要导入到 Rails 应用程序中，数据集的大小可能超过 100k 行，这意味着正在使用大量内存——我在服务器。

每个 CSV 代表一个表转储。
现在，我的问题是我需要将数据导入多个表中，通过外键维护关系。

到目前为止我所做的大致是这样的:

创建 ids 缓存哈希
对于每个 CSV/表 find_or_initialize 在可能的情况下通过属性，或执行类似 model.where({complicated conditions}) || 的操作model.create({复杂条件}) 保存创建的对象
填充 ids 缓存映射 CSV id => DB id

在复杂条件语句中可以放置一些保存在先前表中并缓存的id。

看看at the code here了解更多详情。

注意:我需要的更多是 upsert 而不仅仅是普通的 insert。

我已经尝试过的一些优化:

使用的事务 => 使用的内存更少，插入速度更快
用过crewait gem => 比普通 AR 快，但比交易慢
model.skip_callbacks(:create) => 加速或内存改进不明显
缓存了在所有其他表中广泛使用的 user 模型 => 内存使用率高且速度较慢(？!)
如果一行已经存在，只选择 id 属性以使用更少的内存 => 在速度/内存方面没有太大差异
缓存的优化哈希结构:使用Google Hashes将 id 存储为 INT->INT => 内存使用减少 10%

我看过但不知道如何使用的其他东西:

单一且长的 SQL 查询:它基本上是 crewait 背后的想法，但就我所尝试的而言，它并没有很好地工作
activerecord-import : 导入速度更快，但我会丢失所有关系或 CSV 到 DB id 的映射
upsert :我看过它，但我想将它用作最后的手段(恕我直言，这有点棘手)。

我们非常欢迎任何关于如何改进的建议:谈论工具、库、策略等等。

更新

这是我拥有的 CSV 的简化示例:

lings.csv

------------------------
| id | name    | depth |
------------------------
| 0  | English |   0   |
------------------------
| 1  | French  |   0   |
------------------------
| etc..                |
------------------------

属性.csv

-----------------------------------
| id | name         | description |
-----------------------------------
| 0  | Subject_Verb | bla, bla... |
-----------------------------------
| 1  | Verb_Subject | bla, bla... |
-----------------------------------
| etc..                           |
-----------------------------------

lings_properties.csv

--------------------------------------
| id | value | ling_id | property_id |
--------------------------------------
| 0  | Yes   |    0    |     0       |
--------------------------------------
| 1  | No    |    1    |     1       |
--------------------------------------
| etc..                              |
--------------------------------------

查看上面的示例，当我导入 Lings 和 Properties 时，将为其分配不同的 ID，但我仍然希望 LingsProperties 与英语和法语思想相关联。我无法在数据库中使用 CSV id - 它们是由另一个应用程序分配的，该应用程序具有与我导入它们的应用程序不同的架构。

更新2

我的 Rails 版本是 3.0.20。我正在使用 Rails 3.2(或更高版本)，在那里我可以使用 first_or_create(或类似的)，但目前我仍然使用 Rails 3.0。

最佳答案

既然你要求建议，我会给出一个，但没有明示或暗示的保证。

我认为在同时构建 ID 映射的同时(就像您正在做的那样)一次性插入所有具有错误外键的记录可能会更快，而且肯定会占用更少的内存。请注意，您可以使用带列表参数的 create 将一批多条记录发送到服务器。这可能有减少锁定开销的优势。

然后使用 update_all 调用将好的(新的)外键替换为坏的(旧的)外键。像这样的东西:

PropertyOwnership.where(:ling_id => old_id).update_all('ling_id = ?', new_id)

有了这个，您就可以让 Active Record ORM 大部分脱离处理循环，这应该会有所帮助。唯一的内存开销应该是整数 -> 整数 id 映射。

为了防止旧 ID 与新 ID 冲突，只需将从 CSV 读取的外键字段增加一个大于表中当前最大 ID 加上其大小的数字。这应该使其不在插入期间创建的新 ID 的范围内。

这应该更快的原因是 update_all 调用将完全发生在服务器端的单个表中，而 find_or_initialize 正在执行选择，然后插入或保存时稍后更新，并且访问在表中按深度优先顺序发生。

关于mysql - Rails 批量插入多个表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23042685/

25

4

0

文章推荐： ios - Swift 可选模板类型意外参数行为

文章推荐： android - 如何为 Qt android 构建 MySQL 插件？

文章推荐： ios - 区分在自定义UIView中点击了哪个按钮

文章推荐： php - Store_result 和 get_result 语句

java - JPA/Hibernate 批量(批量)插入
这是我在阅读了几个关于 jpa 批量插入的主题后创建的简单示例，我有 2 个持久对象用户和站点。一个用户可以有多个站点，所以我们在这里有一对多的关系。假设我想创建用户并将多个站点创建/链接到用户帐户。
azure - 如何在文档数据库中上传多个文档(批量)
我有文档列表(对象)，该对象有多个文档，即存在 Json 记录，但是当我尝试上传文档束(记录)时，它没有上传到文档数据库，但当我上传单个文档记录时，它上传成功。 List listObj = ne
perl - 如何检查域名是否可用(批量)？
我希望进行批量域名查找，看看是否有一些域名可供购买。我找不到 perl 模块，但似乎应该有一种方法可以在 perl 中执行此操作。我正在寻找免费的东西。谢谢! 最佳答案从这里:http://www.
axapta - 批量 FTPWebRequest
我制作了一个批处理类来检查 FTP 上的文件、下载它们并在 FTP 上删除它们。当我手动运行它(不是批量运行)时，它运行完美，下载 FTP 中的所有文件并在下载完成后删除它们。当我尝试批量运行时，
string - 批量 * 通配符替换
我有一个 *+* 形式的字符串 base。我想得到+之前的所有内容。例如，如果 base=foo+bar，我想获取 foo。我尝试过使用字符串替换来实现 set left=%base:+*=% 但这
mysql - 如何使MySQL默认引擎为innodb？(批量)
我需要创建几十个表，并且我需要它们是innodb，有没有办法做到这一点，而不是将 engine=innodb 附加到每个 create table 语句？最佳答案可以在服务器级别指定默认引擎，在
linux - 如何在windows中获取unix风格的提示符(批量)
我正在尝试制作显示 unix/linux 提示符的 dos shell。代码是: @echo off :hi set tmpdrv=%cd:~0,2% if %homedrive% == %tmpdr
matlab - 批量/并行进行一维卷积
我有以下代码，基本上是在二维矩阵的每一行上进行一维卷积。卷积核是一样的。所以真的是 SIMD 案例。 a = [ 1,2,3,4,5; 6,7,8,9,7; 7,6
windows - 如何通过文件夹循环移动文件夹(批量)？
情况: 我尝试在 shell 中的循环内移动文件，但我的代码无法正常工作。 for /D %%F in (*) do ( if "%%F" NEQ "%directoryToPutFilesIn
windows - 批量 |回显多个变量到文件
目录包含 2 个(或更多)任意名称的视频文件。 video1.mkv video2.mkv 需要找出每个视频的持续时间。为此，我们使用 MediaInfo . setlocal EnableDelay
windows - 如何从文件名中删除空格(批量)
如何在 Windows 中批量删除数千个文件中的空格(而不是替换为下划线)？我可以从 DOS 命令执行此操作吗？目前: file one.mp3 file two.mp3 所有文件需要变成: fil
windows - 批量 IF 变量比较神秘地不起作用
我想创建一个批处理文件，它读取 2 个不同的值，并根据它们的比较方式进行相应处理。但是，比较永远不会起作用。代码是: REM string1 and string2 contain the follo
windows - 批量 - 使用通配符将文件夹复制到多个文件夹
我正在尝试将一个文件夹的子文件夹复制到许多其他名称未知的文件夹中。目的是在所有使用它的员工文件夹中备份程序的源文件。如果在员工文件夹中找不到程序文件夹，则不应执行任何操作。这看起来如下: 来源: F:
python - 检测文本是否为英文(批量)
我正在寻找一种简单的方法来检测一小段文本(几句话)是否为英语。在我看来，这个问题比尝试检测任意语言要容易得多。有没有可以做到这一点的软件？我正在用 python 编写，并且更喜欢 python 库，但
android - 批量 Firebase 云消息传递的限制
我们正在尝试向 8k 种不同的设备发送促销推送消息。我们正在成功响应推送通知 URL https://fcm.googleapis.com/fcm/send 但只有部分用户收到此通知，并非全部。那么
batch-file - 批量，用延迟扩展参数替换延迟扩展字符串
基本上我只是用这一段来替换我的 var 中的一个字符串，但我无法让嵌套延迟扩展正常工作。这甚至可能吗？ set replace=!replace:!search!=!replaceVal!! 我知道执
bash - FFmpeg:一次编码多个视频文件(批量)
如何使用 ffmpeg 对一批视频文件进行编码，使用相同的设置？我找到了 one-line solution将当前文件夹中的 .avi 文件转换为 .mov。请注意，我要编码 .mov -> .mo
batch-file - "Counter"批量
我正在尝试制作一个批处理文件，每次循环时都会将变量增加 1，然后检查变量是否等于 5，如果不是，则再次循环。我知道这可能有一个 while 循环，但我不知道如何做到这一点，我现在只是享受学习 Batc
读取带有变量行的 CSV 以跳过、批量
我正在尝试创建一个循环，读取多个 CSV 文件，这些文件都具有相同类型的气温数据。但是，我想跳过数据上方的行。这些是数据集中的“警报”。每个文件可能有不同数量的警报，因此要跳过不同数量的行。见下文:
batch-file - 在文件中回显多个单词会使它崩溃。 (批量)
因此，我正在批量创建一个Mail程序，而消息传递部分出现了问题。消息传递部分是无限循环。当我输入多个单词时，它会崩溃。这是代码。请帮忙! :rep set line= set /p line=

首页

博学

6Ren·AI

商城

mysql - Rails 批量插入多个表

更新2