gpt4 book ai didi

Azure 事件中心确保仅读取一次数据并进行故障处理

转载 作者:行者123 更新时间:2023-12-03 02:07:44 25 4
gpt4 key购买 nike

大家好,我正在研究用例,通过 Azure 云中的事件中心对增量表实现更新/增量更新。我遇到了必要的事件中心和增量实时表。我一开始就有一个 HVR 代理,它将从各种数据源获取连续数据。事件中心将读取数据并将数据传输到增量实时表,并进一步传输到将充当管道源的增量表。

以下是要涵盖的场景。

  1. 尽管可能存在服务器停机问题,但仅读取一次新登陆的数据。
  2. 如果发生任何失败,我们应该从最后一个成功状态点读取数据
  3. 从初始状态恢复过去的数据

您能帮我解决我的情况吗?

最佳答案

是的,达美实时表 (DLT) 将满足该要求。对于流式实时表,DLT 在幕后使用 Spark Structured Streaming这保证了:

  • 当一切正常时,数据将被读取一次。结构化流跟踪检查点中消耗的偏移量(但这在 DLT 中自动发生)
  • 如果数据处理过程中出现故障,DLT 将从上次成功处理期间检查点中存储的偏移量开始处理数据。

第三个要求不太清楚 - 是否要从主题开始就消耗数据?那么是的,这是可能的。

请注意,您无法直接使用 EventHubs Spark 连接器,因为 DLT 目前不允许安装外部 jar,但您可以使用作为 DLT 运行时一部分的内置 Kafka 连接器来完成此操作。这个answer展示了如何做到这一点。

关于Azure 事件中心确保仅读取一次数据并进行故障处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74398064/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com