gpt4 book ai didi

performance - Spark 机器学习、数据准备性能问题、MLeap

转载 作者:行者123 更新时间:2023-11-30 09:15:32 25 4
gpt4 key购买 nike

我发现了很多关于 Mleap 的良好回复 - 一个可以快速评分的库。它以模型为基础工作,并转换为 MLeap 包。

但是评分之前的数据准备阶段又如何呢?

是否有一些有效的方法可以将“spark ML 数据准备管道”(在训练期间工作,但在 Spark 框架中)转换为健壮、性能高效、优化的字节码?

最佳答案

您可以使用 MLeap 轻松序列化整个 PipelineModel(包含特征工程和模型训练)。

注意:以下代码有点旧,您现在可能可以访问更干净的 API..

// Mleap PipelineModel Serialization into a single .zip file
val sparkBundleContext = SparkBundleContext().withDataset(pipelineModel.transform(trainData))
for(bundleFile <- managed(BundleFile(s"jar:file:${mleapSerializedPipelineModel}"))) {
pipelineModel.writeBundle.save(bundleFile)(sparkBundleContext).get
}

// Mleap code: Deserialize model from local filesystem (without any Spark dependency)
val mleapPipeline = (for(bf <- managed(BundleFile(s"jar:file:${modelPath}"))) yield {
bf.loadMleapBundle().get.root
}).tried.get

请注意,棘手的部分是您是否在 Spark 中定义自己的估算器/转换器,因为它们也需要相应的 MLeap 版本。

关于performance - Spark 机器学习、数据准备性能问题、MLeap,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56872086/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com