error-handling - 撤消/回滚数据处理管道的影响-6ren

error-handling - 撤消/回滚数据处理管道的影响

转载作者：行者123 更新时间：2023-12-04 04:32:45

29

4

我有一个工作流，我将描述如下:

[  Dump(query)  ] ---+
                     |
                     +---> [ Parquet(dump, schema) ] ---> [ Hive(parquet) ]
                     |
[ Schema(query) ] ---+

地点:

query 是对 RDBMS 的查询
Dump 将结果 query 转储到 CSV 文件 dump
Schema 运行query 和xcoms 其架构schema
Parquet 读取csv 并使用schema 创建Parquet 文件parquet
Hive 根据Parquet文件创建Hive表parquet

这个以某种方式令人费解的工作流程背后的原因是由于无法解决且超出问题范围的限制(但是，理想情况下它会比这简单得多)。

我的问题是关于在发生故障时回滚管道的影响。

这些是我希望在不同条件下发生的回滚:

dump 应该始终被删除，无论管道的最终结果如何
parquet 如果由于某种原因 Hive 表创建失败，则应删除

在工作流程中表示这一点，我可能会这样写:

[  Dump(query)  ] ---+
                     |
                     +---> [ Parquet(dump, schema) ] ---> [ Hive(parquet) ]
                     |                |                          |
[ Schema(query) ] ---+                |                          |
                                      v                          v
                            [ DeleteParquetOutput ] --> [ DeleteDumpOutput ]

只有在发生错误时才会执行从 Parquet 到 DeleteParquetOutput 的转换，并且转换到 DeleteDumpOutput 时会忽略它的任何失败依赖关系。

这应该可以解决它，但我相信更复杂的管道可能会因这种错误处理逻辑而增加复杂性而受到很大影响。

在继续讨论更多细节之前，我的问题是:在处理 Airflow 管道中的错误时，这可以被视为一种好的做法吗？有什么不同的(并且可能更可持续)方法？

如果您对我想如何解决这个问题更感兴趣，请继续阅读，否则请随时回答和/或发表评论。

我对管道中错误处理的看法

理想情况下，我想做的是:

为每个相关阶段定义一个回滚过程
对于每个回滚过程，定义它是只在失败的情况下发生还是在任何情况下发生
当管道完成时，反转依赖关系，并从最后一个成功的任务开始，遍历反转的 DAG 并运行相关的回滚过程(如果适用)
应记录回滚过程中的错误，但不应考虑以完成整个管道的回滚
为了保持之前的观点，每个任务都应该定义一个单独的效果，其回滚过程可以在不引用其他任务的情况下进行描述

让我们用给定的管道做几个例子。

场景 1:成功

我们反转 DAG 并用它的强制回滚过程(如果有的话)填充每个任务，得到这个

                                         +---> [ Dump: UNDO ]
                                         |
[ Hive: None ] ---> [ Parquet: None ] ---+
^                                        |
|                                        +---> [ Schema: None ]
+--- Start here

场景二:`Hive`发生故障

                                                 +---> [ Dump: UNDO ]
                                                 |
[ Hive: None ] ---> [ Parquet: UNDO (error) ] ---+
                    ^                            |
                    |                            +---> [ Schema: None ]
                    +--- Start here

有什么方法可以在 Airflow 中表示这样的东西吗？我也乐于评估不同的工作流自动化解决方案，如果它们支持这种方法的话。

最佳答案

BaseOperator所有运算符和传感器都派生自的类支持回调:on_success_callback , on_retry_callback和 on_failure_callback -- 也许这些会有所帮助。

关于error-handling - 撤消/回滚数据处理管道的影响，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49056230/

29

4

0

文章推荐： asp.net - 匿名访问(IIS)和SQL Server

文章推荐： timeout - 超时后是否需要调用 EndInvoke？

rust - 如何将 serde_json::error::Error 转换为 reqwest::error::Error？
reqwest v0.9 将 serde v1.0 作为依赖项，因此实现 converting serde_json errors into reqwest error . 在我的代码中，我使用 se
error-handling - 有没有办法将 std::io::Error 转换为 failure::error::Error？
我有这个代码: let file = FileStorage { // ... }; file.write("Test", bytes.as_ref()) .map_err(|e| Mu
角度攀登: Error: No errors
我只是尝试用angular-cli创建一个新项目，然后运行服务器，但是它停止并显示一条有趣的消息:Error: No errors。我以这种方式更新了(希望有帮助):npm uninstall -g
payload - 我收到错误 : "MetaMask - RPC Error: Error: Error: [ethjs-rpc] rpc error with payload"
我从我的 javascript 发送交易 Metamask 打开传输对话框我确定 i get an error message in metamask (inpage.js:1 MetaMask -
error-handling - 使用 Box 装箱后如何处理不同的错误类型？
这个问题在这里已经有了答案: How do you define custom `Error` types in Rust? (3 个答案) How to get a reference to a
swift - error = error 与 error != nil 之间的区别
我想知道两者之间有什么大的区别 if let error = error{} vs if error != nil?或者只是人们的不同之处，比如他们如何用代码表达自己？例如，如果我使用这段代码: u
blazor - 错误 : Connection disconnected with error 'Error: Server returned an error on close: Connection closed with an error.'
当我尝试发送超过 50KB 的图像时，我在 Blazor 服务器应用程序上收到以下错误消息 Error: Connection disconnected with error 'Error: Serv
jsf - JSF : error handling with and JSF1073 error
我有一个error-page指令，它将所有异常重定向到错误显示页面我的web.xml: [...] java.lang.Exception /vi
node.js - 如何修复 'error: Error: syntax error - at value'
我有这样的对象: address: { "phone" : 888, "value" : 12 } 在 WHERE 中我需要通过 address.value 查找对象，但是在 SQL 中有函数
c++ - '标识符' : redefinition errors ( error C2011 & error C2370)
每次我尝试编译我的代码时，我都会遇到大量错误。这不是我的代码的问题，因为它在另一台计算机上工作得很好。我尝试重新安装和修复，但这没有帮助。这是整个错误消息: 1>------ Build starte
error-handling - Bison : one error causes additional but incorrect error
在我的代码的类部分，如果我写一个错误，则在不应该的情况下，将有几行报告为错误。我将'| error'放在可以从错误中恢复的良好/安全位置，但是我认为它没有使用它。也许它试图在某个地方恢复中间表情？有
Python捕获异常 "pandas.errors.ParserError: Error tokenizing data. C error"
我遇到了 csv 输入文件整体读取故障的问题，我可以通过在 read_csv 函数中添加 "error_bad_lines=False" 来删除这些问题来解决这个问题。但是我需要报告这些造成问题的文
java - Spring : How to resolve a validation error -> error code -> error message
在 Spring 中，验证后我们在 controller 中得到一个 BindingResult 对象。很简单，如果我收到验证错误，我想重新显示我的表单，并在每个受影响的字段上方显示错误消息。因此
eclipse - Java 运行时环境检测到 fatal error : Internal Error ; Error: ShouldNotReachHere()
我不知道出了什么问题，因为我用 Java 编程了大约一年，从来没有遇到过这个错误。在一分钟前在 Eclipse 中编译和运行工作，现在我得到这个错误: #A fatal error has been
postgresql - Postgres : Error [42601] Error: Syntax error at or near "$2". 执行查询时出错
SELECT to_char(messages. TIME, 'YYYY/MM/DD') AS FullDate, to_char(messages. TIME, 'MM/DD
.net - VB.NET : error BC30037, followed by error BC30627 and error BC30465
我收到这些错误: AnonymousPath\Anonymized.vb : error BC30037: Character is not valid. AnonymousPath\Anonymiz
sungridengine - 网格引擎 : error: commlib error: got select error (connection refused)
我刚刚安装了 gridengine 并在执行 qstat 时出现错误: error: commlib error: got select error (Connection refused) erro
php - 尖叫 : Error suppresion ignored for Parse error: syntax error PHP
嗨，我正在学习 PHP，我从 CRUD 系统开始，我在 Windows 上安装了 WAMP 服务器，当我运行它时，我收到以下错误消息。 SCREAM: Error suppression ignore
swift - fatal error : Unresolved error Error Domain=NSCocoaErrorDomain Code=134140
我刚刚开始一个新项目，我正在学习核心数据教程，可以找到:https://www.youtube.com/watch?v=zZJpsszfTHM 我似乎无法弄清楚为什么会抛出此错误。我有一个名为“Exp
c++ - JENKINS BUILD ERROR fatal error C1853 : precompiled header error
当我使用 Jenkins 运行新构建时，出现以下错误: "FilePathY\XXX.cpp : fatal error C1853: 'FilePathZ\XXX.pch' precompiled

首页

博学

6Ren·AI

商城