gpt4 book ai didi

mysql - Rails 批量插入多个表

转载 作者:可可西里 更新时间:2023-11-01 07:09:44 25 4
gpt4 key购买 nike

我有以下场景:我有一些 CSV 文件要导入到 Rails 应用程序中,数据集的大小可能超过 100k 行,这意味着正在使用大量内存——我在服务器。

每个 CSV 代表一个表转储。
现在,我的问题是我需要将数据导入多个表中,通过外键维护关系。

到目前为止我所做的大致是这样的:

  • 创建 ids 缓存哈希
  • 对于每个 CSV/表 find_or_initialize 在可能的情况下通过属性,或执行类似 model.where({complicated conditions}) || 的操作model.create({复杂条件}) 保存创建的对象
  • 填充 ids 缓存映射 CSV id => DB id

复杂条件语句中可以放置一些保存在先前表中并缓存的id。

看看at the code here了解更多详情。

注意:我需要的更多是 upsert 而不仅仅是普通的 insert

我已经尝试过的一些优化:

  • 使用的事务 => 使用的内存更少,插入速度更快
  • 用过crewait gem => 比普通 AR 快,但比交易慢
  • model.skip_callbacks(:create) => 加速或内存改进不明显
  • 缓存了在所有其他表中广泛使用的 user 模型 => 内存使用率高且速度较慢(?!)
  • 如果一行已经存在,只选择 id 属性以使用更少的内存 => 在速度/内存方面没有太大差异
  • 缓存的优化哈希结构:使用Google Hashes将 id 存储为 INT->INT => 内存使用减少 10%

我看过但不知道如何使用的其他东西:

  • 单一且长的 SQL 查询:它基本上是 crewait 背后的想法,但就我所尝试的而言,它并没有很好地工作
  • activerecord-import : 导入速度更快,但我会丢失所有关系或 CSV 到 DB id 的映射
  • upsert :我看过它,但我想将它用作最后的手段(恕我直言,这有点棘手)。

我们非常欢迎任何关于如何改进的建议:谈论工具、库、策略等等。

更新

这是我拥有的 CSV 的简化示例:

lings.csv

------------------------
| id | name | depth |
------------------------
| 0 | English | 0 |
------------------------
| 1 | French | 0 |
------------------------
| etc.. |
------------------------

属性.csv

-----------------------------------
| id | name | description |
-----------------------------------
| 0 | Subject_Verb | bla, bla... |
-----------------------------------
| 1 | Verb_Subject | bla, bla... |
-----------------------------------
| etc.. |
-----------------------------------

lings_properties.csv

--------------------------------------
| id | value | ling_id | property_id |
--------------------------------------
| 0 | Yes | 0 | 0 |
--------------------------------------
| 1 | No | 1 | 1 |
--------------------------------------
| etc.. |
--------------------------------------

查看上面的示例,当我导入 Lings 和 Properties 时,将为其分配不同的 ID,但我仍然希望 LingsProperties 与英语和法语思想相关联。我无法在数据库中使用 CSV id - 它们是由另一个应用程序分配的,该应用程序具有与我导入它们的应用程序不同的架构。

更新2

我的 Rails 版本是 3.0.20。我正在使用 Rails 3.2(或更高版本),在那里我可以使用 first_or_create(或类似的),但目前我仍然使用 Rails 3.0。

最佳答案

既然你要求建议,我会给出一个,但没有明示或暗示的保证。

我认为在同时构建 ID 映射的同时(就像您正在做的那样)一次性插入所有具有错误外键的记录可能会更快,而且肯定会占用更少的内存。请注意,您可以使用带列表参数的 create 将一批多条记录发送到服务器。这可能有减少锁定开销的优势。

然后使用 update_all 调用将好的(新的)外键替换为坏的(旧的)外键。像这样的东西:

PropertyOwnership.where(:ling_id => old_id).update_all('ling_id = ?', new_id) 

有了这个,您就可以让 Active Record ORM 大部分脱离处理循环,这应该会有所帮助。唯一的内存开销应该是整数 -> 整数 id 映射。

为了防止旧 ID 与新 ID 冲突,只需将从 CSV 读取的外键字段增加一个大于表中当前最大 ID 加上其大小的数字。这应该使其不在插入期间创建的新 ID 的范围内。

这应该更快的原因是 update_all 调用将完全发生在服务器端的单个表中,而 find_or_initialize 正在执行选择,然后插入或保存时稍后更新,并且访问在表中按深度优先顺序发生。

关于mysql - Rails 批量插入多个表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23042685/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com