gpt4 book ai didi

mongodb - 在 Apache Beam 中读取具有无限 PCollections 的 MongoDB changeStream

转载 作者:行者123 更新时间:2023-12-04 15:36:30 24 4
gpt4 key购买 nike

我正在为我的公司设计一种新方法,以从多个 MongoDB 数据库流式传输数据,执行一些任意的初始转换,然后将它们输入 BigQuery。

有多种要求,但关键是速度以及在某些字段到达数据仓库之前省略或编辑它们的能力。

我们基本上使用 Dataflow 来执行此操作:

MongoDB -> 数据流(Apache Beam、Python)-> BigQuery

我们基本上只需要等待 collection.watch() 调用作为输入,但从文档和现有研究来看,这可能是不可能的,

目前,MongoDB 连接器是有界的,似乎没有现成的解决方案来以无界方式读取 changeStream 或集合。

是否可以从 changeStream 中读取并让管道等待任务被终止而不是没有记录?

最佳答案

在这种情况下,我决定通过作为无限数据源的 Google Pub/Sub。

关于mongodb - 在 Apache Beam 中读取具有无限 PCollections 的 MongoDB changeStream,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59565313/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com