Airflow - 如何处理异步 API 调用？-6ren

Airflow - 如何处理异步 API 调用？

转载作者：行者123 更新时间：2023-12-04 07:30:45

53

4

我正在尝试弄清楚如何最好地解决以下问题。本质上，我有一个外部 API 服务，我向其发送请求并获取结果。

POST = 发送请求，您得到的响应是一个 URL，您可以将其用于 GET 请求以检索结果。

GET = 轮询从 POST 请求返回的 URL，直到获得成功的结果。

在 Airflow 中解决这个问题的最佳方法是什么？我的想法是让 2 个任务并行运行。

发送 POST 请求，然后将响应 URL 保存到 XCOM。
另一个将在 while 循环中持续运行，从 XCOM 存储中读取新的 URL 响应并获取响应。一旦从该 URL 检索到成功结果，它就会从 XCOM 存储中删除。

您认为这是正确的做法吗？或者我应该在 python 中使用 asyncio 库吗？

非常感谢任何帮助

谢谢，

最佳答案

您可以使用 Airflow 中的 SimpleHttpOperator 和 HttpSensor 实现您所描述的内容(无需安装任何额外的包)。

考虑这个使用 http_default 连接到 http bin 的例子.

执行POST请求的任务:

task_post_op = SimpleHttpOperator(
    task_id='post_op',
    # http_conn_id='your_conn_id',
    endpoint='post',
    data=json.dumps({"priority": 5}),
    headers={"Content-Type": "application/json"},
    response_check=lambda response: response.json()['json']['priority'] == 5,
    response_filter=lambda response: 'get', # e.g  lambda response: json.loads(response.text)
    dag=dag, 
)

通过提供 response_filter，您可以操纵响应结果，这将是推送到 XCom 的值。在您的情况下，您应该在下一个任务中返回要轮询的端点。

response_filter: A function allowing you to manipulate the responsetext. e.g response_filter=lambda response: json.loads(response.text).The callable takes the response object as the first positional argumentand optionally any number of keyword arguments available in the context dictionary.:type response_filter: A lambda or defined function.

请注意 response_check参数是可选的。

执行 GET 请求的任务:

使用 HttpSensor戳直到 response_check 可调用计算结果为真。

task_http_sensor_check = HttpSensor(
    task_id='http_sensor_check',
    # http_conn_id='your_conn_id',
    endpoint=task_post_op.output, 
    request_params={},
    response_check=lambda response: "httpbin" in response.text,
    poke_interval=5,
    dag=dag,
)

作为 endpoint 参数，我们使用 XComArg 传递从上一个任务中提取的 XCom 值。 .使用 poke_interval 定义作业在每次尝试之间应等待的时间(以秒为单位)。

记得创建一个Connection您自己定义基本 URL、端口等。

让我知道这是否对您有用!

关于Airflow - 如何处理异步 API 调用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67946819/

53

4

0

文章推荐： mysql - 使用 REGEXP .* 更新 MYSQL 表？

文章推荐： data-structures - 迭代 HashMaps 如何在内存中工作 : Rust

文章推荐： python - discord.py Intents.members 工作不正常

文章推荐： java - 理解方法引用工作的问题

airflow - Airflow 中 "airflow run"和 "airflow test"之间的差异
在Airflow中，我一直在使用“airflow run”和“airflow test”，但不完全理解它们有何不同。他们有什么区别？最佳答案我自己通读了文档，发现它是多么令人困惑。 Airflow
webserver - Airflow : `airflow webserver` 、 `airflow scheduler` 和 `airflow worker` 到底做了什么？
我使用 Airflow 已经有一段时间了，它是由一位同事创建的。最近我遇到了一些错误，这需要我更深入地了解如何修复 Airflow 中的某些问题。我确实理解这三个进程是什么，但我只是不明白运行它们时
airflow 告诉我删除 ~/airflow/airflow.cfg。但是当我这样做时，它会不断重新创建
AIRFLOW_HOME=/path/to/my/airflow_home 我收到这个警告... >airflow trigger_dag python_dag3 /Users/alexryan/mi
airflow - Airflow 可以扩展多少？
有没有人报告过他们在他们的公司中让 Airflow 扩展了多少？我正在考虑实现 Airflow 来执行 5,000 多个任务，每个任务每小时运行一次，有一天可以将其扩展到 20,000 多个任务。在检
airflow - 如何从github安装apache Airflow
问题 :我想使用 Github 上最新版本的 Apache-Airflow 安装 apache-airflow 以及所有依赖项？我怎样才能使用 pip 做到这一点？在生产环境中使用它是否安全？最
airflow - 如何优雅地关闭 Airflow？
我们在 AWS ECS 上运行 Airflow，并将所有 DAG 捆绑在一个 Docker 镜像中。我们不时更新 DAGS，并部署新版本的 Docker Image。当我们这样做时，ECS 将终止正在
airflow - 如何仅允许混凝土用户使用 Airflow
问题很简单。我需要限制 Airflow 网络用户仅查看和执行某些 DAG 和任务。如果可能，我宁愿不使用 Kerberos也不是 OAuth . Multi-tenancy option 似乎是一个
airflow - Airflow 或任何其他选项中的任务之间的延迟？
我们正在使用 Airflow 2.00。我正在尝试实现一个做两件事的 DAG: 通过 API 触发报告从源到目标下载报告。任务 1 和任务 2 之间至少需要 2-3 小时的间隔。根据我的研究，我有
airflow - Airflow 中任务的粒度
对于一项任务，有许多辅助任务 - 从文件/数据库中获取/保存属性、验证、审计。这些辅助方法并不耗时。一个示例 DAG 流， fetch_data >> actual_processing >> va
airflow - 无需Web服务器即可重新启动apag Airflow
有什么方法可以重新加载作业而不必重新启动服务器吗？最佳答案在airflow.cfg中，您具有以下两种配置来控制此行为: # after how much time a new DAGs shoul
airflow - Airflow 可以用于运行永无止境的任务吗？
我们可以通过将任务/dag 超时设置为 None 并手动触发其运行来使用 Airflow dag 来定义永无止境的作业(即具有无条件循环以消耗流数据的任务)吗？让 Airflow 监测永无止境的任务会
airflow - Airflow 调度器问题
我是 Airflow 的新手，最近开始探索这个工具。我在 18.4 版本的 ubuntu 机器上安装了 1.10.10 版。从设置和安装的角度来看，一切正常，但是我在任何 DAG 中的任务都没有运行，
airflow - Airflow 动态DAG和任务ID
我主要看到Airflow被用于ETL / Bid数据相关的工作。我正在尝试将其用于业务工作流，其中用户操作将来会触发一组相关任务。其中某些任务可能需要根据某些其他用户操作来清除(删除)。我认为最好的
airflow - Airflow 能否持续访问短期动态生成任务的元数据？
我有一个 DAG，只要 FileSensor 检测到文件，它就会使用它，为每个文件生成任务，以 (1) 将文件移动到暂存区域，(2) 触发单独的 DAG 来处理文件。 FileSensor -> Mo
airflow - Airflow 中是否可以有一条不与任何时间表相关的管道？
我需要手动或以编程方式执行的管道，可以使用 Airflow 吗？看起来现在每个工作流程都必须与时间表绑定(bind)。最佳答案只需在创建 DAG 时将 schedule_interval 设置为
airflow - 在没有 Apache Airflow 的情况下运行 Apache Airflow DAG
所以这是一个愚蠢的想法...... 我在 Airflow 中创建了(许多)DAG...并且它有效...但是，我想以某种方式将其打包，以便我可以在不安装 Airflow 的情况下运行单个 DAG 运行；
airflow - Prometheus:如何根据任何 Airflow Dag 而不是特定 Airflow Dag 的结果创建警报
我使用“pip install 'apache-airflow[statsd]' 安装了 airflow[statsd] 并安装了 statsd_exporter。现在我可以看到来自 Promethe
python - Airflow - 没有名为 "airflow.providers"或 "airflow.contrib.providers"的模块
我们正在尝试将 MongoHook 和 GCSToLocalFilesystemOperator 导入到我们的 Airflow 项目中: docs for MongoHook docs for GCS
airflow - 如何在启动 Airflow 网络服务器时解决 "Error: No module named ' airflow.www'"
启动 Airflow 网络服务器时出现以下错误 balajee@Balajees-MacBook-Air.local:~$ Airflow 网络服务器 -p 8080 [2018-12-03 00:2
airflow - 安装 Airflow 时出错 : By default one of Airflow's dependencies installs a GPL
运行pip install airflow[postgres]命令后出现以下错误: > raise RuntimeError("By default one of Airflow's dependen

首页

博学

6Ren·AI

商城

Airflow - 如何处理异步 API 调用？