gpt4 book ai didi

python - Pyspark 数据帧 : Creating a features column to be used in the clustering in python

转载 作者:太空宇宙 更新时间:2023-11-03 21:12:12 25 4
gpt4 key购买 nike

我正在尝试在 pyspark 中创建实现 k-means 聚类。我使用 mnist 作为我的数据集,它有数百个带有整数值的列。

创建数据框后,当我尝试创建要在聚类中使用的特征列时,我不知道要为 VectorAssembler< 提供什么作为 inputCols 参数。下面是我的代码

sc = SparkContext('local')
spark = SparkSession(sc)

df = spark.read.csv('mnist_train.csv')
df.show()
df_feat = df.select(*(df[c].cast("float").alias(c) for c in df.columns[0:]))
df_feat.show()

vecAssembler = VectorAssembler(inputCols = ???????, outputCol = "features")

对于我正在使用的这个大整数值数据,我应该将什么作为 inputCols 的参数?

最佳答案

Vectorassembler需要一个列名称列表来创建特征向量。因此,对于 mnist 数据集,您可以给他除标签之外的所有内容。例如:

#I assume that df_feat.columns[0] is the column which contains the labels
cols = df_feat.columns[1:]
vecAssembler = VectorAssembler(inputCols = cols, outputCol = "features")

关于python - Pyspark 数据帧 : Creating a features column to be used in the clustering in python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54986856/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com