gpt4 book ai didi

Mongodb:如何避免锁定大集合更新

转载 作者:可可西里 更新时间:2023-11-01 09:11:39 25 4
gpt4 key购买 nike

我有一个包含 2.502.011 个元素的 events 集合,我想对所有元素执行更新。不幸的是,由于写锁,我遇到了很多 mongodb 错误。

问题:如何避免这些错误以确保我的所有事件都正确更新?

以下是关于我的事件集合的信息:

> db.events.stats()
{
"count" : 2502011,
"size" : 2097762368,
"avgObjSize" : 838.4305136947839,
"storageSize" : 3219062784,
"numExtents" : 21,
"nindexes" : 6,
"lastExtentSize" : 840650752,
"paddingFactor" : 1.0000000000874294,
"systemFlags" : 0,
"userFlags" : 0,
"totalIndexSize" : 1265898256,
"indexSizes" : {
"_id_" : 120350720,
"destructured_created_at_1" : 387804032,
"destructured_updated_at_1" : 419657728,
"data.assigned_author_id_1" : 76053152,
"emiting_class_1_data.assigned_author_id_1_data.user_id_1_data.id_1_event_type_1" : 185071936,
"created_at_1" : 76960688
}
}

这是一个事件的样子:

> db.events.findOne()
{
"_id" : ObjectId("4fd5d4586107d93b47000065"),
"created_at" : ISODate("2012-06-11T11:19:52Z"),
"data" : {
"project_id" : ObjectId("4fc3d2abc7cd1e0003000061"),
"document_ids" : [
"4fc3d2b45903ef000300007d",
"4fc3d2b45903ef000300007e"
],
"file_type" : "excel",
"id" : ObjectId("4fd5d4586107d93b47000064")
},
"emiting_class" : "DocumentExport",
"event_type" : "created",
"updated_at" : ISODate("2013-07-31T08:52:48Z")
}

我想更新每个事件以添加 2 个基于现有 created_atupdated_at 的新字段。如果我错了,请纠正我,但当您需要访问当前的元素数据时,您似乎无法使用 mongo update 命令。

这是我的更新循环:

db.events.find().forEach(
function (e) {
created_at = new Date(e.created_at);
updated_at = new Date(e.updated_at);

e.destructured_created_at = [e.created_at]; // omitted the actual values
e.destructured_updated_at = [e.updated_at]; // omitted the actual values
db.events.save(e);
}
)

当运行上面的命令时,由于数据库的写锁,我得到了大量的页面错误。

mongostat

最佳答案

我想你在这里很困惑,不是写锁导致的,而是 MongoDB 查询你的更新文档;在页面错误期间锁不存在(实际上它只在实际更新或保存磁盘上的文档时存在),它让位于其他操作。

锁更像是 MongoDB 中的互斥体。

这种数据大小的页面错误是完全正常的,因为您显然不经常查询这些数据,我不确定您希望看到什么。我绝对不确定你的问题是什么意思:

Question: How can I avoid those faults in order to be sure that all my events are correctly updated ?

好的,您可能会遇到的问题是您在那台机器上出现页面抖动,进而破坏了您的 IO 带宽并用不需要的数据淹没了您的工作集。真的需要急切的给所有的文档加这个字段吗,再用那个数据的时候应用程序按需加不行吗?

另一种选择是分批执行此操作。

您可以在此处使用的一个功能是优先级队列,它规定此类更新是后台任务,不应过多影响 mongod 的当前工作。我听说应该有这样的功能(找不到 JIRA :/)。

Please correct me if I am wrong but it seems you can't use the mongo update command when you need to access current's element data along the way.

你是对的。

关于Mongodb:如何避免锁定大集合更新,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17988522/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com