gpt4 book ai didi

apache-spark - Spark 将新的拟合阶段添加到现有的 PipelineModel 无需再次拟合

转载 作者:行者123 更新时间:2023-12-04 01:57:59 25 4
gpt4 key购买 nike

我有一个保存的 PipelineModel:

pipe_model = pipe.fit(df_train)
pipe_model.write().overwrite().save("/user/pipe_text_2")

现在我想向这个 Pipe 添加一个新的已经安装好的 PipelineModel:
pipe_model = PipelineModel.load("/user/pipe_text_2")
df2 = pipe_model.transform(df1)

kmeans = KMeans(k=20)
pipe2 = Pipeline(stages=[kmeans])
pipe_model2 = pipe2.fit(df2)

这可能不重新安装吗?为了获得新的 PipelineModel 而不是新的 Pipeline。理想的情况如下:
pipe_model_new = pipe_model + pipe_model2
TypeError: unsupported operand type(s) for +: 'PipelineModel' and 'PipelineModel'

我找到了 Join two Spark mllib pipelines together但是使用此解决方案,您需要再次安装整个管道。这就是我试图避免的。

最佳答案

PipelineModel s 有效 stage s 代表 PipelieModel类,你应该可以使用它不需要 fit再次:

pipe_model_new = PipelineModel(stages = [pipe_model , pipe_model2])
final_df = pipe_model_new.transform(df1)

关于apache-spark - Spark 将新的拟合阶段添加到现有的 PipelineModel 无需再次拟合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49337830/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com