- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我收集了超过 7000 万份文档。每当我批量添加新文档(比如说 2K)时,插入操作真的很慢。我怀疑这是因为,mongo 引擎正在将所有新文档的 _id 与所有 7000 万文档进行比较,以找出任何 _id 重复条目。由于基于 _id 的索引是磁盘驻留的,它会使代码变慢。
有没有办法避免这种情况。我只想让 mongo 获取新文档并按原样插入,而不进行此检查。有可能吗?
最佳答案
您的问题包含许多关于 MongoDB 工作原理的主要假设。我将在下面解决这些问题,但我建议您尝试根据数据库指标(即 serverStatus、mongostat、mongotop)、系统资源监控和MongoDB 记录慢速查询。指标需要随着时间的推移进行监控,以便您可以确定部署的“正常”情况,因此我强烈建议使用 MongoDB 特定的监控工具,例如 MMS Monitoring .
一些有趣的演示文稿为性能故障排除和调试提供了非常相关的背景 Material :
除了了解您的实际性能挑战所在并调整您的部署之外,您还可以通过以下方式提高插入效率:
删除此集合上任何未使用或冗余的二级索引
使用 Bulk API批量插入文档
Whenever I add new documents in batches (lets say 2K), the insert operation is really slow. I suspect that is because, the mongo engine is comparing the _id's of all the new documents with all the 70 million to find out any _id duplicate entries. Since the _id based index is disk-resident, it'll make the code a lot slow.
如果一个集合有 7000 万个条目,这并不意味着索引查找涉及 7000 万次比较。索引值存储在 B-trees 中这允许进行少量有效的比较。确切的数字将取决于树的深度、您的索引的构建方式以及您要查找的值......但将在 10 次(而不是数百万次)比较的数量级上。
如果您真的对内部结构很好奇,可以在开发环境中启用一些实验性存储和索引统计信息:Storage-viz: Storage Visualizers and Commands for MongoDB .
Since the _id based index is disk-resident, it'll make the code a lot slow.
MongoDB 加载您的 working set (最近访问的数据和索引条目的一部分)到可用内存中。
如果您能够按大致升序创建您的 ID(例如,生成的 ObjectId),那么所有更新都将发生在 B 树的右侧,并且您的工作集会小得多(常见问题解答: "Must my working set fit in RAM" ).
Yes, I can let mongo use the _id for itself, but I don't want to waste a perfectly good index for it. Moreover, even if I let mongo generate _id for itself won't it need to compare still for duplicate key errors?
MongoDB 中的所有文档都需要一个唯一的_id
。默认的 ObjectId
是根据应确保唯一性的公式生成的(即返回重复键异常的可能性极低,因此您的应用程序不会出现重复键异常并且必须重试新的 _id
)。
如果您对文档中的唯一 _id
有更好的候选者,请随意使用此字段(或字段集合)而不是依赖生成的 _id
。请注意,_id
是不可变的,因此您不应使用任何以后可能要修改的字段。
关于mongodb - 如何快速插入到一个非常大的集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24008951/
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset,并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
我已经创建了 MongoDB Atlas 帐户,并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息),任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息,有人可以帮忙吗? 我试过提供的解决方案 here但没有帮助。 最佳答案 我建议执行以下操作: 按 Wi
我对 MongoDB 和 MongoDB Compass 非常陌生。 我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。 非常感谢, 最佳答案 您可以使用 Mo
当我尝试在我的 Ubuntu 机器中安装 mongodb 时,apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例? 最佳答案 确保 Meteor 正在本地主机上运行。打开终端窗口并运行
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
我如何在 mongos mapreduce 中指定一个条件,就像我们在 mongos group 函数中所做的那样。 我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引,这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
在我的数据库中,每个包含项目的文档中都有一个嵌套的元素数组,格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
我正在构建一个应用程序,其中用户可以位于不同的时区,并且我运行的查询对他们的时区很敏感。 我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
我正在研究使用 mongodb 进行分片,我有以下结构: 1 个 Mongod 到我的 ConfigServer,在 ReplicaSet 中只有 1 个成员 2 个分片,每个分片在 ReplicaS
我正在尝试获取一个 mongoDB 对象,例如 Friend1 包含另一个 mongoDB 对象 Friend2,该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。 要么这样,要么
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。 我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9,最终我想升级到 2.4.9,但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件,然后是
目前,我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接,该 PC 也运行 vm。 这是两台电脑的
我创建了一个免费的 mongodb 集群。我创建了一个用户,设置了与 mongodb compass 的连接,复制了连接字符串,然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde
我是一名优秀的程序员,十分优秀!