gpt4 book ai didi

h2o - Spark with H2O 和苏打水的区别

转载 作者:行者123 更新时间:2023-12-02 09:24:35 27 4
gpt4 key购买 nike

我对苏打水有一些疑问或疑问,以及为什么需要它。

假设我有一个生成的包含二进制和 pojo 的 h2o 模型。

现在我想将模型部署到生产中,并可以选择同时使用 pojo 和二进制(苏打水)。

  1. 我应该使用哪一个?使用 pojo 直接 Spark 或使用 Binary 苏打水。
  2. 当我们可以使用 pojo 和 Spark 本身轻松部署模型时,苏打水的确切用途是什么?
  3. 只有当您必须使用大量数据训练模型时才需要苏打水吗?或者它也可以用于模型的 PROD 部署。

示例:https://github.com/h2oai/h2o-droplets/blob/master/h2o-pojo-on-spark-droplet/src/main/scala/examples/PojoExample.scala

使用spark运行pojo模型。

示例:https://github.com/h2oai/h2o-droplets/blob/master/sparkling-water-droplet/src/main/scala/water/droplets/SparklingWaterDroplet.scala

在苏打水中训练/运行模型。

与普通 Spark 相比,苏打水 h2o 有哪些优点?

最佳答案

  1. 我应该使用哪一个?使用 pojo 直接 Spark 或使用 Binary 苏打水。

    • 没有“正确”答案,这取决于您的用例。听起来您想要的是 Spark 中的 POJO/MOJO,这样您就可以进行评分,而无需额外依赖 H2O 集群。
  2. 当我们可以使用 pojo 和 Spark 本身轻松部署模型时,苏打水的确切用途是什么?

    • Sparkling Water 的确切用途是在 Spark 上下文中提供可用的 H2O。这对于训练特别有用:您可以利用 Spark 的许多数据连接器、咀嚼功能等。POJO/MOJO + Spark 足以评分
  3. 只有在需要使用大量数据训练模型时才需要苏打水吗?或者它也可以用于模型的 PROD 部署。

    • 当您想要在与 Spark 生态系统良好配合的环境中利用 H2O 的算法时,需要使用 Sparkling Water。

如果将模型放入“生产”意味着将“始终在线”评分公开为 REST 端点或类似的:POJO/MOJO 是您想要的方式(H2O 集群不具有高可用性)。不过,您需要确保自己正确处理传入的数据。

如果您要进行批量评分(每晚或其他方式),那么使用带有 Sparkling Water 的二进制模型可能是有意义的,因为解析传入数据变得微不足道(asH2OFrame(..)),并且评分很容易,就像 Predict()

关于h2o - Spark with H2O 和苏打水的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43236377/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com