pyspark==2.4.0
这是给出异常的代码:
LDA = spark.read.parquet('./LDA.parquet/')
LDA.printSchema()
from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator
kmeans = KMeans(featuresCol='topic_vector_fix_dim').setK(15).setSeed(1)
model = kmeans.fit(LDA)
根
|-- Id: string (nullable = true)
|-- topic_vector_fix_dim: array (nullable = true)
| |-- 元素:double (containsNull = true)
非法参数异常:'要求失败:列 topic_vector_fix_dim 的类型必须等于以下类型之一:[struct < type:tinyint,size:int,indices:array < int >,values:array < double >>, array < double >, array < float > ] 但实际上是 array < double > 类型。'
我很困惑 - 它不喜欢我的 array <double>
,但说它可能是输入。
topic_vector_fix_dim 的每个条目都是一维 float 组
features 列的
containsNull
应设置为 False
:
new_schema = ArrayType(DoubleType(), containsNull=False)
udf_foo = udf(lambda x:x, new_schema)
LDA = LDA.withColumn("topic_vector_fix_dim",udf_foo("topic_vector_fix_dim"))
之后一切正常。
我是一名优秀的程序员,十分优秀!