- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在更新一个包含数百万文档且 _id 冲突少于 10 个的数据库。
我目前正在使用 PyMongo 模块通过 insert_many 进行批量插入:
在数百万个文档中只有大约 10 个冲突,我目前正在为每个 _id 查询数据库。我认为如果我可以减少查询过程,我可以将总插入时间减少一两天。
是否有类似于 upsert 的东西可能只插入不存在的文档?
最佳答案
处理此问题以及以有效方式“插入/更新”许多文档的更好方法是使用 Bulk Operations API以“批量”方式提交所有内容,高效发送所有内容并收到“单一回复”作为确认。
这可以通过两种方式处理。
首先要忽略主键或其他索引上的任何“重复错误”,然后您可以使用“无序”操作形式:
bulk = pymongo.bulk.BulkOperationBuilder(collection,ordered=False)
for doc in docs:
bulk.insert(doc)
response = bulk.execute()
那里的“UnOrdered”或false
参数意味着操作可以按任何顺序执行,并且“整个”批处理将完成,任何实际错误都将在响应中简单地“报告” .所以这是一种基本上“忽略”重复项并继续前进的方法。
替代方法大致相同,但使用“更新插入”功能以及 $setOnInsert
:
bulk = pymongo.bulk.BulkOperationBuilder(collection,ordered=True)
for doc in docs:
bulk.find({ "_id": doc["_id"] }).upsert().updateOne({
"$setOnInsert": doc
})
response = bulk.execute()
.find()
中的“查询”部分用于使用“主键”或文档的“唯一键”查询文档是否存在。如果未找到匹配项,则会在创建新文档时发生“upsert”。由于所有修改内容都在$setOnInsert
中,因此只有在发生“upsert”时才会在此处修改文档字段。否则,当文档被“匹配”时,关于保存在该运算符下的数据实际上没有任何改变。
在这种情况下,“有序”意味着每个语句实际上都是按照创建时的“相同”顺序提交的。此外,这里的任何“错误”都会停止更新(在发生错误的地方),这样就不会更多的操作将被提交。它是可选的,但可能建议用于正常的“重复”行为,即后面的语句“复制”前一个语句的数据。
因此,为了更高效的写入,一般的想法是使用“批量”API 并相应地构建您的操作。这里的选择实际上取决于来自源的“插入顺序”对您是否重要。
当然,相同的 "ordered"=False
操作适用于 insert_many
,它在较新的驱动程序版本中实际使用“批量”操作。但是,坚持使用可以使用简单 API 进行“混合”操作的通用接口(interface),您将获得更大的灵 active 。
关于performance - 有没有办法跳过 Pymongo 3.0 中 insert_many 的现有 _id?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31375606/
我正在尝试扩展我的第一个 Flask 应用程序,但不了解在多个模块中使用 pymongo 数据库所需的结构。例如,这是我的新结构: run.py app/ ├── __init__.py ├── fo
Pymongo 返回一个游标,我可以迭代结果并将其文档附加到列表中。有没有办法直接获取列表中的结果文档?谢谢 最佳答案 以下代码会将整个结果集(光标)转换为列表: myresults = list(m
我使用pip3成功安装了pymongo Aleeshas-MacBook-Air:project 2 aleesha$ sudo pip3 install pymongo The directory
我正在尝试运行非常简单的代码来弄清楚如何将 pymongo 与 MongoDB Atlas Cloud 结合使用。 这是示例代码 import pymongo client = pymongo.Mon
我想找到集合 (mycol) 中的文档的 _id,其中 "name":"John"。我已插入文档,但想找到文档的 _id。可能吗 ?我正在尝试 result = db.mycol.find({"_id
我是 PyMongo 和 Flask 的新手,不过我已经完成了 Flask 的教程,并且对它感觉很舒服。我现在正在尝试使用 MongoDb 实现 flask 服务器,但我不确定如何进行。 我看到有两个
我正在尝试在 mongodb 集合中批量插入一些文档。 我对我收藏的链接字段施加了唯一约束。 bulkUrls = db.urls.initialize_ordered_bulk_op() for i
简单介绍一下背景知识,我之前曾在 Node.js 和 mongoose.js 中使用过 MongoDB。现在我决定尝试使用 python 和 pymongo。但是,当我尝试将文档插入到我的集合中时,我
我正在获取 MongoDB 中某个集合的全部数据,一段时间后(比如 30 或 60 分钟),脚本会引发以下错误: pymongo.errors.CursorNotFound: cursor id 18
我在 mongodb 数据库中消费了一堆推文。我想使用 pymongo 查询这些推文。例如,我想查询 screen_name。但是,当我尝试这样做时,python 不会返回推文,而是返回有关 pymo
我有一个 合作伙伴集合,我正在使用 pymongo 来检索数据 当我使用 MongoDB 查询集合时,我看到以下结果 db.partner.find({'unique_key': 'c89dbe313
我正在尝试使用 Pymongo 将字典插入到 MongoDB 集合中。代码段为 newdict = {'id': a, 'usr_id': i.get('user_id'), 'reach_value
我尝试使用 pymongo 连接 MongoDB。但是遇到了dnspython必须安装的错误即使在我安装了 pymongo 和 dnspython 之后。 我的代码是: import pymongo
我正在使用 pymongo 将数亿条格式为 {'id_str': , 'created_at': , 'text': } 的推文从文本文件迁移到 MongoDB。为每个用户创建一个集合来存储他/她的推
我知道这是一个相当普遍的问题。我正在编写一个小型 Flask 应用程序,并试图将一些查询反馈给 View 。 我已经连接到我的本地 MongoDB 设置,并进行了成功的查询 - 但我无法用它生成 js
我想从 ObjectId 对象中获取字符串字符。我用的是pymongo。例如:ObjectId("543b591d91b9e510a06a42e2"),我想获取"543b591d91b9e510a06
我想实现一个函数,该函数需要以与插入相反的顺序从 pymongo 集合中获取值。 我可以想到几个方法: cursor = collection.find(skip=collection.count()
从pymongo文档: MongoDB以BSON格式存储数据。 BSON字符串采用UTF-8编码,因此PyMongo必须确保 它存储的任何字符串仅包含有效的UTF-8数据。常规字符串()>已验证,并且
目录 查询数据 设置查询条件 更多查询操作 PS:pymongo最大查询限制 解决方案 查询数据 往
修订问题。将很快更新。 最佳答案 演示 - https://mongoplayground.net/p/ksay82IaGHs 按 TeacherID 分组和 TeacherID并获得组合的出现,$s
我是一名优秀的程序员,十分优秀!