python - PyMongo:如何批量更新 MongoDB 中的大量 JSON 数据-6ren

python - PyMongo:如何批量更新 MongoDB 中的大量 JSON 数据

转载作者：行者123 更新时间：2023-12-02 13:57:14

28

4

我从 API 中提取 JSON 数据，输出如下:

[[{'employeeId': 1, 'lastName': 'Smith'}, {'employeeId': 2, 'lastName': 'Flores'}]]

列表中大约有250k 个对象。我可以迭代列表中的对象并通过 PyMongo 以这种方式执行 update_one :

json_this = json.dumps(json_list[0])
json_that = json.loads(json_this)
for x in json_that:
    collection.update_one({"employeeId": x['employeeId']},{"$set": x},upsert=True)

但是对于 250k 条记录，这需要很长时间。我正在尝试使用 update_many 但无法弄清楚如何正确转换/格式化此 JSON 列表以使用 update_many 函数。任何指导将不胜感激。

最佳答案

将250K文档更新/插入到数据库可能是一项艰巨的任务，您不能使用update_many，因为过滤器查询和更新值在每个字典之间确实会发生变化。因此，通过下面的查询，您至少可以避免对数据库的多次调用，但我不太确定这对您的场景是否有效，请注意，我是 python 的初学者，这是一个基本代码，可以为您提供一个想法:

对于批量操作，您可以做的最好的事情是 PyMongo-bulk ，由于 .bulkWrite() 的限制我们将 250K 记录分割成 block :

from pymongo import UpdateOne
from pprint import pprint
import sys

json_this = json.dumps(json_list[0])
json_that = json.loads(json_this)

primaryBulkArr = []
secondaryBulkArr = []
thirdBulkArr = []

## Here we're splicing 250K records into 3 arrays, in case if we want to finish a chunk at a time,
 # No need to splice all at once - Finish end - to - end for one chunk & restart the process for another chunk from the index of the list where you left previously

for index, x in enumerate(json_that):
    if index < 90000:
        primaryBulkArr.append(
            UpdateOne({"employeeId": x['employeeId']}, {'$set': x}, upsert=True))
    elif index > 90000 and index < 180000:
        secondaryBulkArr.append(
            UpdateOne({"employeeId": x['employeeId']}, {'$set': x}, upsert=True))
    else:
        thirdBulkArr.append(
            UpdateOne({"employeeId": x['employeeId']}, {'$set': x}, upsert=True))

## Reason why I've spliced into 3 arrays is may be you can run below code in parallel if your DB & application servers can take it,
# At the end of the day irrespective of time taken only 3 DB calls are needed & this bulk op is much efficient.
try:
    result = collection.bulk_write(bulkArr)
    ## result = db.test.bulk_write(bulkArr, ordered=False)
    # Opt for above if you want to proceed on all dictionaries to be updated, even though an error occured in between for one dict
    pprint(result.bulk_api_result)
except:
    e = sys.exc_info()[0]
    print("An exception occurred ::", e) ## Get the ids failed if any & do re-try

关于python - PyMongo:如何批量更新 MongoDB 中的大量 JSON 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59780762/

28

4

0

文章推荐：来自一台服务器的多个应用程序的 IOS 推送通知

文章推荐： f# - F# 中如此灵活的 "self-identifiers"有什么好处？

文章推荐： plugins - Unity3D 的网络部署是如何工作的？

文章推荐： javascript - 在 Chrome 中打开 blob objectURL

python - Flask/PyMongo - 在应用程序顶部初始化 pymongo
我正在尝试扩展我的第一个 Flask 应用程序，但不了解在多个模块中使用 pymongo 数据库所需的结构。例如，这是我的新结构: run.py app/ ├── __init__.py ├── fo
pymongo - 如何让 pymongo 的 find() 返回一个列表？
Pymongo 返回一个游标，我可以迭代结果并将其文档附加到列表中。有没有办法直接获取列表中的结果文档？谢谢最佳答案以下代码会将整个结果集(光标)转换为列表: myresults = list(m
python - pymongo: ImportError: 没有名为 pymongo 的模块
我使用pip3成功安装了pymongo Aleeshas-MacBook-Air:project 2 aleesha$ sudo pip3 install pymongo The directory
python - 使用示例代码时出现 Pymongo pymongo.errors.ServerSelectionTimeoutError
我正在尝试运行非常简单的代码来弄清楚如何将 pymongo 与 MongoDB Atlas Cloud 结合使用。这是示例代码 import pymongo client = pymongo.Mon
python - pymongo+MongoDB : How to find _id in pymongo?
我想找到集合 (mycol) 中的文档的 _id，其中 "name":"John"。我已插入文档，但想找到文档的 _id。可能吗？我正在尝试 result = db.mycol.find({"_id
python - PyMongo 和 Flask-PyMongo 库之间的区别
我是 PyMongo 和 Flask 的新手，不过我已经完成了 Flask 的教程，并且对它感觉很舒服。我现在正在尝试使用 MongoDb 实现 flask 服务器，但我不确定如何进行。我看到有两个
python - 在 Pymongo 中执行批量插入时如何忽略错误。我在 pymongo 中使用有序的批量写入操作
我正在尝试在 mongodb 集合中批量插入一些文档。我对我收藏的链接字段施加了唯一约束。 bulkUrls = db.urls.initialize_ordered_bulk_op() for i
python - pymongo 获取 E11000 重复键错误索引 pymongo 错误
简单介绍一下背景知识，我之前曾在 Node.js 和 mongoose.js 中使用过 MongoDB。现在我决定尝试使用 python 和 pymongo。但是，当我尝试将文档插入到我的集合中时，我
python - 如何解决 Pymongo 的这个错误？游标 ID 找不到 pymongo
我正在获取 MongoDB 中某个集合的全部数据，一段时间后(比如 30 或 60 分钟)，脚本会引发以下错误: pymongo.errors.CursorNotFound: cursor id 18
python - 为什么在尝试通过 pymongo 查询我的 mongodb 数据库时得到 pymongo.cursor.Cursor？
我在 mongodb 数据库中消费了一堆推文。我想使用 pymongo 查询这些推文。例如，我想查询 screen_name。但是，当我尝试这样做时，python 不会返回推文，而是返回有关 pymo
mongodb - pymongo find() vs mongodb find()，pymongo find() 给出的文档数据较少
我有一个合作伙伴集合，我正在使用 pymongo 来检索数据当我使用 MongoDB 查询集合时，我看到以下结果 db.partner.find({'unique_key': 'c89dbe313
python - Pymongo:bson.errors.InvalidDocument:无法编码对象:
我正在尝试使用 Pymongo 将字典插入到 MongoDB 集合中。代码段为 newdict = {'id': a, 'usr_id': i.get('user_id'), 'reach_value
python - pymongo.errors.ConfigurationError : The "dnspython" module must be installed to use mongodb+srv://URIs even after pymongo and dnspython installed
我尝试使用 pymongo 连接 MongoDB。但是遇到了dnspython必须安装的错误即使在我安装了 pymongo 和 dnspython 之后。我的代码是: import pymongo
python - pymongo.errors.BulkWriteError : batch op errors occurred (MongoDB 3. 4.2，pymongo 3.4.0，python 2.7.13)
我正在使用 pymongo 将数亿条格式为 {'id_str': , 'created_at': , 'text': } 的推文从文本文件迁移到 MongoDB。为每个用户创建一个集合来存储他/她的推
pymongo - 将pymongo光标转换为json
我知道这是一个相当普遍的问题。我正在编写一个小型 Flask 应用程序，并试图将一些查询反馈给 View 。我已经连接到我的本地 MongoDB 设置，并进行了成功的查询 - 但我无法用它生成 js
pymongo - 如何将objectid转换为字符串
我想从 ObjectId 对象中获取字符串字符。我用的是pymongo。例如:ObjectId("543b591d91b9e510a06a42e2")，我想获取"543b591d91b9e510a06
pymongo - 如何在pymongo上查询并以插入的相反顺序获取值
我想实现一个函数，该函数需要以与插入相反的顺序从 pymongo 集合中获取值。我可以想到几个方法: cursor = collection.find(skip=collection.count()
pymongo - 如何获取pymongo始终返回str而不是unicode？
从pymongo文档: MongoDB以BSON格式存储数据。 BSON字符串采用UTF-8编码，因此PyMongo必须确保它存储的任何字符串仅包含有效的UTF-8数据。常规字符串()>已验证，并且
PyMongo 查询数据的实现
目录查询数据设置查询条件更多查询操作 PS：pymongo最大查询限制解决方案查询数据往
python - Pymongo 聚合管道
修订问题。将很快更新。最佳答案演示 - https://mongoplayground.net/p/ksay82IaGHs 按 TeacherID 分组和 TeacherID并获得组合的出现，$s

首页

博学

6Ren·AI

商城

python - PyMongo:如何批量更新 MongoDB 中的大量 JSON 数据