gpt4 book ai didi

python - 如何在 pyspark 机器学习中使用 Dataframe?

转载 作者:行者123 更新时间:2023-11-30 09:00:18 26 4
gpt4 key购买 nike

我已经简要学习了如何使用 RDD 构建 ML 模型,但过去我通常使用数据帧构建 ML 模型。我知道spark.ml是用于spark机器学习的DataFrame API,但我一直无法找到如何使用它的示例。

我的问题是您能否提供一个示例来说明如何使用 Dataframes 构建 Spark 机器学习模型?

附注抱歉,如果这个问题不合适,我不确定在哪里发布。

最佳答案

这是我刚刚快速想到的一个简单示例。

import pyspark.ml                as ml
import pyspark.ml.feature as ft
import pyspark.ml.classification as cl

data = sc.parallelize([
(1, 'two', 3.4, 0)
,(2, 'four', 9.1, 1)
,(3, 'one', 2.1, 0)
,(4, 'five', 2.6, 0)
]).toDF(['id', 'counter', 'continuous', 'result'])

si = ft.StringIndexer(inputCol='counter', outputCol='counter_idx')
ohe = ft.OneHotEncoder(inputCol=si.getOutputCol(), outputCol='counter_enc')
va = ft.VectorAssembler(inputCols=['counter_enc', 'continuous'], outputCol='features')

lr = cl.LogisticRegression(maxIter=5, featuresCol='features', labelCol='result')

pip = ml.Pipeline(stages=[si, ohe, va, lr])
pip.fit(data).transform(data).select(data.columns+['probability', 'prediction']).show()

您还可以查看丹尼的笔记本和我的书:https://github.com/drabastomek/learningPySpark/blob/master/Chapter06/LearningPySpark_Chapter06.ipynb

希望这有帮助。

关于python - 如何在 pyspark 机器学习中使用 Dataframe?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42685268/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com