gpt4 book ai didi

MongoDB 使用 pymongo 收集 500K 文档的写入速度很差

转载 作者:行者123 更新时间:2023-12-02 01:27:16 25 4
gpt4 key购买 nike

系统信息:
操作系统:Ubuntu 20.04 LTS
系统:80 GB RAM,1 TB SSD,i7-12700k

这个集合中的文档平均为 16KB,这个集合中有 500K 个文档。我注意到随着集合变大,插入文档所花费的时间也变长。

Linear relationship?

我可以通过哪些方式提高写入速度?

插入 150k 文档需要 10 个小时。当我们整合这条线时,这是围绕着图表预测的:

def f(num):
return 0.0004*num+0.9594

sum=0
for i in range(500,650):
sum+=f(i*1000)

>> sum/3600
>> 9.61497

我认为的潜在升级:

  • 使用 C++ mongo 引擎进行写入
  • 为 Mongod 分配更多 RAM

日志

iotop 显示 mongod 使用 < 1% 的 IO 容量,写入速度约为 10-20 KB/s

htop 显示 mongod 仅使用 ~ 16GB RAM\

显示大约 300GB SSD 可用的磁盘

编辑:

伪代码:

docs=[...]
for doc in docs:
doc["last_updated"]=str(datetime.now())

doc_from_db = collection.find_one({"key":doc["key"]})

new_dict = minify(doc)
if doc_from_db is None:
collection.insert_one(new_dict)
else:
collection.replace_one({"key":doc["key"]},new_dict,upsert=true)

最佳答案

当涉及到写入时,有几件事需要考虑,我假设影响最大的是索引大小/索引复杂性/唯一索引。

如果没有更多信息,很难给出准确的建议,因此我将根据我的经验详细说明写入时最常见的瓶颈。

  1. 提到索引,如果你有太多的索引。唯一索引。或非常大的数组上的索引(以及您插入的文档有大数组)这些都会严重影响插入性能。此行为也与您提供的图表相关,因为索引越大,插入变得越糟。这个问题没有“真正”的解决方案,您应该重新考虑哪些索引以及哪些索引导致瓶颈(关注唯一/数组索引)。例如,如果您有一个强制执行唯一性的索引,则将其删除并改为在应用程序级别强制执行唯一性。

  2. 写关注和复制滞后,如果您使用的是副本集并且您需要多数写关注,这肯定会导致问题,因为发生和增长的同步滞后,通常这是不同的副作用问题,例如因为 #1(大索引),插入花费的时间太长,导致同步滞后,从而进一步延迟写入问题。

  3. 未优化的硬件(假设您托管在云中),您会惊讶于仅通过更改磁盘类型和增加 IOPS 就可以优化写入性能。这将立即发挥作用。显然要付出 $$$ 的代价。

  4. 没有提供任何代码,所以我还要检查一下,如果它是一个 for 循环,那么显然您可以并行化逻辑。

我建议您在无索引集合上测试相同的插入逻辑以查明问题所在,一旦您能提供更多信息,我很乐意帮助您考虑其他问题/解决方案。


编辑:

这是一个示例,说明如何在使用 pymongo 的 python 中使用 bulkWrite 来避免 for 循环问题。

from pymongo import InsertOne, DeleteOne, ReplaceOne
from pymongo.errors import BulkWriteError

docs = [... input documents ]
requests = []
for doc in docs:
requests.append({
ReplaceOne({"docId": doc["docID"]}, doc, { upsert: True})
})

try:
db.docs.bulk_write(requests, ordered=False)
except BulkWriteError as bwe:
pprint(bwe.details)

关于MongoDB 使用 pymongo 收集 500K 文档的写入速度很差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74190354/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com