node.js - 如何优化 MongoDB 变更流？

转载作者：行者123 更新时间：2023-12-05 03:20:29

24

4

我有一些返回 1000 个结果的 mongodb 查询，当我查看 mongodb.com 分析器时，它向我显示:

{
  "command": {
    "getMore": 8223354687588024000,
    "collection": "reservations",
    "batchSize": 1000,
    "lsid": {
      "id": {
        "$binary": {
          "base64": "n8eH91eURw+xpT6fNEPURQ==",
          "subType": "04"
        }
      }
    },
    "$clusterTime": {
      "clusterTime": {
        "$timestamp": {
          "t": 1659066401,
          "i": 542
        }
      },
      "signature": {
        "hash": {
          "$binary": {
            "base64": "PHh4eHh4eD4=",
            "subType": "00"
          }
        },
        "keyId": 7090947493382324000
      }
    },
    "$db": "superhosttools"
  },
  "originatingCommand": {
    "aggregate": "reservations",
    "pipeline": [
      {
        "$changeStream": {
          "fullDocument": "updateLookup"
        }
      }
    ],
    "cursor": {},
    "lsid": {
      "id": {
        "$binary": {
          "base64": "n8eH91eURw+xpT6fNEPURQ==",
          "subType": "04"
        }
      }
    },
    "$clusterTime": {
      "clusterTime": {
        "$timestamp": {
          "t": 1659064839,
          "i": 29
        }
      },
      "signature": {
        "hash": {
          "$binary": {
            "base64": "PHh4eHh4eD4=",
            "subType": "00"
          }
        },
        "keyId": 7090947493382324000
      }
    },
    "$db": "superhosttools"
  },
  "planSummary": [
    {
      "COLLSCAN": {}
    }
  ],
  "cursorid": 8223354687588024000,
  "keysExamined": 0,
  "docsExamined": 26879,
  "numYields": 210,
  "nreturned": 1000,
  "reslen": 15283228,
  "locks": {
    "ReplicationStateTransition": {
      "acquireCount": {
        "w": 2206
      }
    },
    "Global": {
      "acquireCount": {
        "r": 2206
      }
    },
    "Database": {
      "acquireCount": {
        "r": 2206
      }
    },
    "Collection": {
      "acquireCount": {
        "r": 1994
      }
    },
    "Mutex": {
      "acquireCount": {
        "r": 1996
      }
    },
    "oplog": {
      "acquireCount": {
        "r": 211
      }
    }
  },
  "storage": {
    "data": {
      "bytesRead": 2083760,
      "timeReadingMicros": 4772
    }
  },
  "protocol": "op_msg",
  "millis": 249,
  "v": "4.2.21"
}

这看起来是有趣的部分，我们使用更改流，但我不知道为什么我们会得到 1000 个结果:

    "pipeline": [
      {
        "$changeStream": {
          "fullDocument": "updateLookup"
        }
      }
    ],

我正在尝试优化我的 mongodb 服务器。感谢您提供有关如何使此查询更高效的任何帮助。

更新#1

我从 watch 代码中删除了 {"fullDocument": "updateLookup"} 参数，这似乎有所帮助，但我仍然收到一些返回 1000 个文档的类似查询:

    "aggregate": "reservations",
    "pipeline": [
      {
        "$changeStream": {
          "fullDocument": "default"
        }
      }
    ],

我现在使用以下代码来实现更改流:

Reservation.watch([]).on("change", async (change: ChangeEvent<ReservationDocument>) => {...});

我不知道是否应该向 .watch([]) 调用添加查询以限制文档数量？什么是变更流的最佳实践？

最佳答案

I don’t know why we would get 1000 results

batchSize 将您的游标限制为 1000 个结果.您可以将 batchSize 作为可选参数添加到 collection.watch()调用:

db.collection.watch([], {batchSize: <number>})

由于更改流是游标，您还可以应用 limit()在检索文档之前到光标:

db.collection.watch(pipeline, options).limit(<number>)

Should I add a query to the .watch([]) call to limit the number of documents? What is considered best practices with change streams?

您可能希望将其过滤为您关心的事件(见下文)。除此之外，默认值是最佳实践。

I'm trying to optimize my mongodb server. Any help how to make this query more efficient is appreciated.

optimizing a MongoDB server的问题in general 对于这个问题来说太过板了，所以我会把这个响应限制在更改流上，因为这似乎是 OP 询问的特定用例。

从 MongoDB 5.1 开始，更改流得到了优化，提供了更高效的资源利用并加快了某些聚合管道阶段的执行速度。如果您尚未使用较新的版本，则更新到 5.1 或更高版本将提供性能提升。

你可以看看Change Streams Production Recommendations查看您是否遵守 Mongo 官方建议。与性能唯一相关的部分是这个:

If a sharded collection has high levels of activity, the mongos may not be able to keep up with the changes across all of the shards. Consider utilizing notification filters for these types of collections. For example, passing a $match pipeline configured to filter only insert operations.

因此，如果您在非常活跃的集合上使用 collection.watch() 并且您只需要对某些更改采取行动，请使用 $match筛选出您关心的更改。

例如，如果您只关心“dave”创作的项目:

db.collection.watch(
    [ { $match : { author : "dave" } } ]
);

关于批量大小的更多考虑

至于您之前关于批处理大小的问题，减少批处理大小不会对性能产生真正的影响(下面提到的一个异常(exception))，因此如果性能是您唯一关心的问题，您会想看看其他地方。来自docs :

Specifies the number of documents to return in each batch of the response from the MongoDB instance. In most cases, modifying the batch size will not affect the user or the application, as mongosh and most drivers return results as if MongoDB returned a single batch.

有一个警告，解释得很详细here :

If you’re using MongoDB Change Streams and filtering for events that occur infrequently (compared to other activity within the oplog) resuming the change stream may appear “sluggish” using the defaults. Consider specifying a custom batchSize based on your workload to potentially improve the time to returning the first event.

关于node.js - 如何优化 MongoDB 变更流？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/73161572/

24

4

0

文章推荐：减少 RMarkdown/Quarto 中命令和输出之间的空间

文章推荐：属于特定值属性的嵌套泛型类型的 typescript 字符串点表示法

文章推荐： lua - 2^65 模 101 错误答案

java - 流<流> : flatMap vs. 减少
这个问题在这里已经有了答案: Why filter() after flatMap() is "not completely" lazy in Java streams? (8 个答案) 关闭 6
instagram - 是否有像 Twitter 流 API 一样的 Instagram 流 API？
我正在创建一个应用程序来从 Instagram 收集数据。我正在寻找像 Twitter 流 API 这样的流 API，这样我就可以自动实时收集数据而无需发送请求。 Instagram 有类似的 API
java - 您的 InputStream 既不是 OLE2 流，也不是 OOXML 流
我正在使用 Apache Commons 在 Google App Engine 中上传一个 .docx 文件，如此链接中所述 File upload servlet .上传时，我还想使用 Apach
java - 使用 AWS Java DynamoDB 流 Kinesis 适配器处理 DynamoDB 流
我尝试使用 DynamoDB 流和 AWS 提供的 Java DynamoDB 流 Kinesis 适配器捕获 DynamoDB 表更改。我正在 Scala 应用程序中使用 AWS Java 开发工具
FFMPEG RTSP IP 流 (H.264) 转换为 RTSP 流 (MPEG-2)
我目前有一个采用 H.264 编码的 IP 摄像机流式视频 (RTSP)。我想使用 FFmpeg 将此 H.264 编码流转换为另一个 RTSP 流，但 MPEG-2 编码。我该怎么做？我应该使用哪
集群模式下的 Redis 流
Redis 流是否受益于集群模式？假设您有 10 个流，它们是分布在整个集群中还是都分布在同一节点上？我计划使用 Redis 流来实现真正的高吞吐量(200 万条消息/秒)，所以我担心这种规模的 Re
Java 流 - 在可空列表上进行流式处理的优雅方式
这件事困扰了我一段时间。所以我有一个 Product 类，它有一个 Image 列表(该列表可能为空)。我想做 product.getImages().stream().filter(...) 但
具有持久存储的 Redis 流
是否可以使用具有持久存储的 Redis 流还是流仅限于内存数据？我知道可以将 Redis 与核心数据结构的持久存储一起使用，但我已经能够理解是否也可以使用 Redis 中的流的持久存储。最佳答
elixir - 具有前瞻性的可枚举/流
我开始学习 Elixir 并遇到了一个我无法轻松解决的挑战。我正在尝试创建一个函数，该函数接受一个 Enumerable.t 并返回另一个 Enumerable.t ，其中包含下 n 个项目。它与
scala - readLines 流
我试图从 readLine 调用创建一个无限的字符串流: import java.io.{BufferedReader, InputStreamReader} val in = new Buffere
Java 8 流 : For Each
你能帮我使用 Java 8 流 API 编写以下代码吗？ SuperUser superUser = db.getSuperUser; for (final Client client : super
rust - 暗示AsyncRead为补品::流
我正在尝试服用补品routeguide tutorial，并将客户端变成rocket服务器。我只是接受响应并将gRPC转换为字符串。 service RouteGuide { rpc GetF
javascript - 流 - 类型可能与联合类型不兼容
流程代码可以是run here. 使用 flow，我有一个函数，它接受一个键值对对象并获取它的值 - 它获取的值应该是字符串、数字或 bool 值。 type ValueType = string
javascript - 流、对象字面量与联合不兼容
如果我有一个函数返回一个包含数据库信息的对象或一个空对象，如下所示: getThingFromDB: async function(id:string):Promise{ const from
facebook - 流。发布ogg
我正在尝试使用javascript api和FB.ui将ogg音频文件发布到流中，但是我不知道该怎么做。这是我给FB.ui的电话: FB.ui( { method: '
Accurev:无法删除工作区/流
我正在尝试删除工作区(或克隆它以使其看起来像父工作区，但我似乎两者都做不到)。但是，当我尝试时，我收到此消息:无法删除工作区 test_workspace，因为它有一个非空的默认组。据我所知，这意味
java - 流 'map'可以用于这样的处理吗？
可以使用 Stream|Map 来完成此操作，这样我就不需要将结果放入外部 HashMap 中，而是使用 .collect(Collectors.toMap(...)); 收集结果？ Map rep
Java 流 API
当我们从集合列表中获取 Stream 时，幕后到底发生了什么？我发现很多博客都说Stream不存储任何数据。如果这是真的，请考虑代码片段: List list = new ArrayList(); l
带列表的 Java 流
我对流及其工作方式不熟悉，我正在尝试获取列表中添加的特定对象的出现次数。我找到了一种使用Collections来做到这一点的方法。其过程如下: for (int i = 0; i p.conten
Java 流 - 映射列表到简化的映射列表
我希望将一个 map 列表转换为另一个分组的 map 列表。所以我有以下 map 列表 - List [{ "accId":"1", "accName":"TestAcc1", "accNumber

首页

博学

6Ren·AI

商城

node.js - 如何优化 MongoDB 变更流？

更新#1

关于批量大小的更多考虑