gpt4 book ai didi

airflow - Flyte 是如何针对 "Data and Machine Learning"进行裁剪的?

转载 作者:行者123 更新时间:2023-12-05 03:22:42 25 4
gpt4 key购买 nike

https://flyte.org/说是

The Workflow Automation Platform for Complex, Mission-Critical Data and Machine Learning Processes at Scale

我浏览了很多文档,但我不明白为什么它是“数据和机器学习”。在我看来,它是容器编排(此处为 Kubernetes)之上的工作流管理器,工作流管理器的意思是,我可以定义有向无环图 (DAG),然后将 DAG 节点部署为容器,DAG 是跑。

当然,这对于“数据和机器学习”非常有用和重要,但我也可以将它用于任何其他微服务 DAG。除了功能/细节,这与 https://airflow.apache.org 有何不同?或其他工作流管理器(其中有很多)。 “数据和机器学习”还有更专业的工作流管理器,例如 https://spark.apache.org .

作为软件架构师,我应该牢记什么?

最佳答案

这是一个很好的问题。你在一件事上是对的,它的核心是一个无服务器工作流编排器(无服务器,因为它确实提供了运行代码的基础设施)。是的,它可以用于多种其他情况。它可能不是某些其他系统(如微服务编排)的最佳工具。

但是,真正使它有利于 ML 和数据编排的是

  1. 功能(在下面列出)&
  2. 集成(下面列出)
  3. 使用它的人的社区
  4. 路线图

特点

  1. 长时间运行的任务:它专为运行时间极长的任务而设计。可以运行数天和数周的任务,即使控制平面出现故障,您也不会丢失工作。您可以在不影响现有工作的情况下继续部署。
  2. 版本控制 - 允许多个用户在同一个项目上独立工作工作流程,使用不同的库、模型、输入等
  3. 内存。让我们以一个包含 10 个步骤的管道为例,您可以记住所有 9 个步骤,如果第 10 个步骤失败,或者您可以修改第 10 个步骤,然后它将重用前 9 个步骤的结果。这导致迭代速度大大加快
  4. 强类型和 ML 特定类型支持Flyte 理解数据帧,并且能够从 spark.dataFrame -> pandas.DataFrame -> Modin -> polars 等转换数据帧,而用户无需考虑如何有效地进行转换。还支持张量(正确序列化)、numpy 数组等。还可以保存模型并从过去的执行中检索模型,因此实际上是模型真值存储
  5. 对内部任务检查点的原生支持。这有助于在节点故障之间甚至跨执行恢复模型训练。添加了对检查点回调的新支持。
  6. Flyte decks:一种可视化 ROC 曲线等指标或自动可视化任务数据输入分布的方法。
  7. 可扩展的编程接口(interface),可以编排分布式作业或在本地运行 -例如 spark、MPI、sagemaker
  8. 文库分离引用任务
  9. 独立于用户代码的调度器
  10. 了解 GPU 等资源 - 在 GPU 和/或 Spot 机器上自动安排。通过智能处理现货机器 - n-1 次重试,最后一台自动转移到按需机器以更好地保证
  11. map task 和动态任务。 (映射区域列表),动态 -> 根据输入动态创建新的静态图
  12. 多个启动计划。 Schedule 2 针对超参数或模型值等略有不同的工作流运行

对于管理员

  1. 对于真正长时间运行的任务,管理员可以在不终止任务的情况下部署管理层
  2. 支持 spot/arm/gpu(不同版本等)
  3. 每个项目/域的配额和限制
  4. 在不升级用户库的情况下升级基础设施

集成

  1. pandas dataframe 原生支持
  2. Spark
  3. mpi 工作(团队安排)
  4. pandera/对数据质量寄予厚望
  5. 贤者
  6. 轻松部署服务模型
  7. Polars/Modin/Spark 数据框
  8. 张量/检查点等等以及路线图中的许多其他内容

社区

专注于 ML 特定功能

路线图

  1. CD4ML,具有人在循环和基于外部信号的工作流程。这将允许用户自动部署模型或在循环标记等中执行人工
  2. 支持跨任务重用 Ray/Spark/Dask 集群
  3. 与 WhyLogs 和其他监控工具集成
  4. 与 MLFlow 等集成
  5. 更多原生 Flytedecks 渲染器

希望这能回答您的问题。也请加入 slack 社区并帮助传播此信息。也问更多问题

关于airflow - Flyte 是如何针对 "Data and Machine Learning"进行裁剪的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72657318/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com