gpt4 book ai didi

apache-spark - 使用 Spark - Spark JobServer 的基于请求的实时推荐?

转载 作者:行者123 更新时间:2023-12-03 19:39:15 25 4
gpt4 key购买 nike

我们正在尝试找到一种加载 Spark (2.x) ML 训练模型的方法,以便根据请求(通过 REST 接口(interface))我们可以查询它并获得预测,例如http://predictor.com:8080/give/me/predictions?a=1,b=2,c=3

有一些开箱即用的库可以将模型加载到 Spark 中(假设它在使用 MLWritable 训练后存储在某个地方),然后将其用于预测,但是将它包装在作业中并根据请求/调用运行它似乎有点过头了到 SparkContext 的初始化。

然而,使用 Spark 的优势在于我们可以保存我们的 Pipeline 模型并执行相同的特征转换,而无需在 SparkContext 之外实现它。

经过一番挖掘,我们发现spark-job-server通过允许我们为作业服务器初始化一个“热” Spark 上下文,可以潜在地帮助我们解决这个问题,因此,我们可以通过在现有上下文中调用预测作业(并获取结果)来服务请求spark-job-server 的 REST API。

这是 API 化预测的最佳方法吗?由于特征空间,我们无法预测所有组合。

或者,我们正在考虑使用 Spark Streaming 并将预测持久化到消息队列中。这允许我们不使用 spark-job-server,但不会简化整个流程。有没有人尝试过类似的方法?

最佳答案

另一种选择可能是 cloudera 的 livy (http://livy.io/ | https://github.com/cloudera/livy#rest-api),它允许 session 缓存、交互式查询、批处理作业等。我用过它,发现它很有前途。

关于apache-spark - 使用 Spark - Spark JobServer 的基于请求的实时推荐?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42222923/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com