gpt4 book ai didi

azure - 在 Azure 中使用 If Else 逻辑创建带有审批网关的管道/机制以检测增量数据质量

转载 作者:行者123 更新时间:2023-12-03 03:34:05 25 4
gpt4 key购买 nike

假设我们有一个数据源,它可以是 blob 存储或表。

当新数据进入数据源时,主要目标是创建一种机制,以便我们可以首先使用某些统计测试来检查新数据的数据质量,然后如果它通过了这些测试,我们应该能够将新数据与以前的数据源合并。数据源必须进行版本控制。

此外,如果新数据未通过统计测试,那么我们应该有一种机制来提醒开发人员,然后如果开发人员决定覆盖,那么我们应该能够将新数据与以前的数据源结合起来。

这个特定部分必须手动触发,这是我们检查新增量的起点。执行此操作后,我们需要触发 Azure DevOps Pipeline。

我们可以使用什么工具来实现此目的?我们可以遵循任何引用指南吗?我需要在 Azure 中实现这个。

主要问题:

  1. 数据集:能够进行版本控制。
  2. 在测试前检测增量并将其存储在单独位置的方法。
  3. 允许开发者进行覆盖的方式。
  4. 执行统计测试。

最佳答案

假设整个工作流程中的步骤可以分解为离散的步骤,相对幂等或者可以在每个步骤设置检查点,并且运行时间不长,那么是的,您可以使用 Durable Functions 进行探索,一个高级编排框架 Azure Functions .

符合您目标的建议:

  1. 数据集:能够进行版本控制 -您应该在生成过程中在数据集中明确对其进行版本控制。如果这不可行,您可以根据数据集元数据组合的哈希值派生版本。
  2. 在测试之前检测增量并将其存储在单独位置的方式 - 取决于增量对您的数据集的意义。您可以让代码检查表存储中某个条目的先前哈希值,并与当前哈希值进行比较。
  3. 允许开发人员进行覆盖的方式 - 是的,请参阅 Human interaction in Durable Functions .
  4. 执行统计测试 -如果每次传递要运行多个测试,则考虑使用 fan-out/fan-in pattern.

关于azure - 在 Azure 中使用 If Else 逻辑创建带有审批网关的管道/机制以检测增量数据质量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73972974/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com