gpt4 book ai didi

python - 使用spark ML 2.2.0中的sklearn-python模型进行预测

转载 作者:行者123 更新时间:2023-11-30 09:17:44 25 4
gpt4 key购买 nike

我正在使用 sklearnpython 中解决文本分类问题。我已经创建了模型并将其保存在 pickle 中。

下面是我在sklearn中使用的代码。

vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])

prd=vectorizerPipe.fit(features_used,labels_used])

f = open(file_path, 'wb')
pickle.dump(prd, f)

有没有什么方法可以使用相同的pickle来获取基于DataFrame的apache Spark而不是基于RDD的输出。我浏览了以下文章,但没有找到合适的实现方法。

  1. what-is-the-recommended-way-to-distribute-a-scikit-learn-classifier-in-spark

  2. how-to-do-prediction-with-sklearn-model-inside-spark-> 我在 StackOverflow 上发现了这两个问题,并且发现它们很有用。

deploy-a-python-model-more-efficiently-over-spark

我是机器学习的初学者。所以,如果这个解释很天真,请原谅我。任何相关的示例或实现都会有所帮助。

最佳答案

RDD -> 使用 Spark 的 Spark 数据框

喜欢:

import spark.implicits._
val testDF = rdd.map {line=>
(line._1,line._2)
}.toDF("col1","col2")

关于python - 使用spark ML 2.2.0中的sklearn-python模型进行预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50639614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com