gpt4 book ai didi

machine-learning - Azure 机器学习管道的最佳实践

转载 作者:行者123 更新时间:2023-12-02 07:16:38 24 4
gpt4 key购买 nike

我开始使用 Azure 机器学习服务。它有一个名为 Pipeline 的功能,我目前正在尝试使用它。但是,文档和示例中有很多东西完全不清楚,我正在努力完全掌握这个概念。

  1. 当我查看“批量评分”示例时,它是作为流水线步骤实现的。这就提出了一个问题:这是否意味着“预测部分”与“训练部分”是同一管道的一部分,或者是否应该为此设置两个单独的管道?制作 1 个结合了这两个步骤的管道对我来说似乎很奇怪,因为您不想每次将某些内容更改为训练部分时都运行预测部分(反之亦然)。
  2. 哪些部分应该作为流水线步骤实现,哪些部分不应该?数据存储和数据集的创建是否应该作为一个步骤来实现?注册模型是否应该作为一个步骤来实现?
  3. 在任何地方都没有显示如何处理模型注册表。我在训练步骤中创建模型,然后将其作为 pickle 文件写入输出文件夹。然后呢?下一步如何获取模型?我应该将它作为 PipelineData 对象传递吗? train.py 本身是否应该负责注册训练好的模型?

最佳答案

Anders 有一个很好的答案,但我会稍微扩展一下#1。在您看到的批处理评分示例中,假设已经有一个经过训练的模型,它可能来自另一个管道,或者在笔记本的情况下,它是一个根本没有在管道中构建的预训练模型.

但是,在同一管道中同时运行训练和预测是一个有效的用例。使用 allow_reuse 参数并设置为 True,这会将步骤输出缓存在管道中,以防止不必要的重新运行。

以模型训练步骤为例,考虑该步骤的以下输入:

  • 训练脚本
  • 输入数据
  • 其他步骤参数

如果你设置allow_reuse=True,并且你的训练脚本、输入数据和其他步骤参数与管道上次运行时相同,它不会重新运行该步骤,它会使用管道上次运行时的缓存输出。但是假设您的数据输入发生了变化,那么该步骤将重新运行。

一般来说,管道是非常模块化的,您可以按照自己认为合适的方式构建它们。您可以为训练和评分维护单独的管道,或者将所有内容捆绑在一个管道中,但利用自动缓存。

关于machine-learning - Azure 机器学习管道的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61391963/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com