- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有一个 1.3 亿行的 MongoDB 3.6.2.0 集合。它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段。数据以压缩格式 (zlib) 存储。
我需要尽快将其中一个嵌入字段导出为 JSON 格式。但是,mongoexport 将永远存在。运行 12 小时后,它只处理了 5.5% 的数据,这对我来说太慢了。
CPU 不忙。 Mongoexport 似乎是单线程的。
我正在使用的导出命令:
mongoexport -c places --fields API \
--uri mongodb://user:pass@hostIP:hostPort/maps?authSource=admin \
-o D:\APIRecords.json
实际上是 getMore 命令,它在后台运行的速度非常慢:
2018-05-02T17:59:35.605-0700 I COMMAND [conn289] command maps.places command: getMore { getMore: 14338659261, collection: "places", $db: "maps" } originatingCommand: { find: "places", filter: {}, sort: {}, projection: { _id: 1, API: 1 }, skip: 0, snapshot: true, $readPreference: { mode: "secondaryPreferred" }, $db: "maps" } planSummary: COLLSCAN cursorid:14338659261 keysExamined:0 docsExamined:5369 numYields:1337 nreturned:5369 reslen:16773797 locks:{ Global: { acquireCount: { r: 2676 } }, Database: { acquireCount: { r: 1338 } }, Collection: { acquireCount: { r: 1338 } } } protocol:op_query 22796ms
我尝试在像这样的单独进程中使用 --SKIP
和 --LIMIT
选项运行多个命令
mongoexport -c places --SKIP 10000000 --LIMIT 10000000 --fields API \
--uri mongodb://user:pass@hostIP:hostPort/maps?authSource=admin \
-o D:\APIRecords.json
mongoexport -c places --SKIP 20000000 --LIMIT 10000000 --fields API \
--uri mongodb://user:pass@hostIP:hostPort/maps?authSource=admin \
-o D:\APIRecords.json
等等。但是我无法完成等到第一个非零 SKIP 的命令甚至开始!
我也试过 --forceTableScan
选项,没有任何区别。
我在 places 表上没有索引。
我的存储配置:
journal.enabled: false
wiredTiger.collectionConfig.blockCompressor: zlib
收藏统计:
'ns': 'maps.places',
'size': 2360965435671,
'count': 130084054,
'avgObjSize': 18149,
'storageSize': 585095348224.0
我的服务器规范:
Windows Server 2012 R2 x64
10Gb RAM 4TB HDD 6 cores Xeon 2.2Ghz
我进行了一项测试,SSD 的读取吞吐量与 HDD 相同。
我的问题:
为什么阅读这么慢?有没有其他人遇到过同样的问题?您能给我一些关于如何加快数据转储速度的提示吗?
我将数据库移至快速 NVME SSD 驱动器,我想现在我可以更清楚地表达我对 MongoDB 读取性能的担忧。
为什么这个命令,它试图找到一 block 没有特定字段的文档:
2018-05-05T07:20:46.215+0000 I COMMAND [conn704] command maps.places command: find { find: "places", filter: { HTML: { $exists: false }, API.url: { $exists: true } }, skip: 9990, limit: 1600, lsid: { id: UUID("ddb8b02c-6481-45b9-9f84-cbafa586dbbf") }, $readPreference: { mode: "secondaryPreferred" }, $db: "maps" } planSummary: COLLSCAN cursorid:15881327065 keysExamined:0 docsExamined:482851 numYields:10857 nreturned:101 reslen:322532 locks:{ Global: { acquireCount: { r: 21716 } }, Database: { acquireCount: { r: 10858 } }, Collection: { acquireCount: { r: 10858 } } } protocol:op_query 177040ms
仅在快速闪存驱动器上产生 50Mb/秒的读取压力?这显然是单线程随机(分散)读取的性能。而我刚刚证明该驱动器可以轻松实现 1Gb/秒的读/写吞吐量。
就 Mongo 内部而言,按顺序读取 BSON 文件并获得 20 倍的扫描速度提升不是更明智吗? (而且,由于我的 block 是 zlib 压缩的,并且服务器有 16 个内核,最好在一个或多个辅助线程中解码获取的 block ?)而不是一个又一个文档地迭代 BSON 文档。
我也可以确认,即使我没有指定任何查询过滤器,并且显然想要迭代整个集合,BSON 文件的快速顺序读取也没有发生。
最佳答案
限制导出性能的因素有很多。
secondaryPreferred
,这意味着它将尝试从辅助节点读取。如果副本集正在被主动写入,则辅助节点上的 oplog 应用操作将阻塞读取器。这将进一步增加延迟。一个可能的改进是,如果这是您经常执行的操作,请在相关字段上创建索引并使用 covered query 导出它。可以提高性能,因为索引会小于完整文档。
编辑:在这种情况下并行运行 mongoexport
可能会有所帮助:
根据提供的其他信息,我进行了一项测试,似乎在一定程度上缓解了这个问题。
似乎并行运行 mongoexport
,其中每个处理集合子集的 mongoexport
可能能够加快导出速度。
为此,请根据您计划运行的 mongoexport
进程的数量划分 _id
命名空间。
例如,如果我有 200,000 个文档,从 _id:0
到 _id:199,999
并使用 2 个 mongoexport
进程:
mongoexport -q '{"_id":{"$gte":0, "$lt":100000}}' -d test -c test > out1.json &
mongoexport -q '{"_id":{"$gte":100000, "$lt":200000}}' -d test -c test > out2.json &
在上面的例子中,两个 mongoexport
进程各自处理一半的集合。
使用 1 个流程、2 个流程、4 个流程和 8 个流程测试此工作流程我到达以下时间:
使用 1 个进程:
real 0m32.720s
user 0m33.900s
sys 0m0.540s
2 个进程:
real 0m16.528s
user 0m17.068s
sys 0m0.300s
4 个进程:
real 0m8.441s
user 0m8.644s
sys 0m0.140s
8 个进程:
real 0m5.069s
user 0m4.520s
sys 0m0.364s
根据可用资源,并行运行 8 个 mongoexport
进程似乎可以将进程加速约 6 倍。这是在一台 8 核的机器上测试的。
注意:halfer 的回答在思想上是相似的,虽然这个回答基本上是想看看并行调用 mongoexport
是否有任何好处。
关于mongodb - 是否可以提高 Mongoexport 的速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50145668/
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset,并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
我已经创建了 MongoDB Atlas 帐户,并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息),任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息,有人可以帮忙吗? 我试过提供的解决方案 here但没有帮助。 最佳答案 我建议执行以下操作: 按 Wi
我对 MongoDB 和 MongoDB Compass 非常陌生。 我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。 非常感谢, 最佳答案 您可以使用 Mo
当我尝试在我的 Ubuntu 机器中安装 mongodb 时,apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例? 最佳答案 确保 Meteor 正在本地主机上运行。打开终端窗口并运行
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
我如何在 mongos mapreduce 中指定一个条件,就像我们在 mongos group 函数中所做的那样。 我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引,这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
在我的数据库中,每个包含项目的文档中都有一个嵌套的元素数组,格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
我正在构建一个应用程序,其中用户可以位于不同的时区,并且我运行的查询对他们的时区很敏感。 我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
我正在研究使用 mongodb 进行分片,我有以下结构: 1 个 Mongod 到我的 ConfigServer,在 ReplicaSet 中只有 1 个成员 2 个分片,每个分片在 ReplicaS
我正在尝试获取一个 mongoDB 对象,例如 Friend1 包含另一个 mongoDB 对象 Friend2,该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。 要么这样,要么
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。 我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9,最终我想升级到 2.4.9,但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件,然后是
目前,我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接,该 PC 也运行 vm。 这是两台电脑的
我创建了一个免费的 mongodb 集群。我创建了一个用户,设置了与 mongodb compass 的连接,复制了连接字符串,然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde
我是一名优秀的程序员,十分优秀!