gpt4 book ai didi

apache-spark - 如何合并DataFrame中的多个特征向量?

转载 作者:行者123 更新时间:2023-11-30 08:22:01 24 4
gpt4 key购买 nike

使用 Spark ML 转换器,我得到了一个 DataFrame,其中每行如下所示:

Row(object_id, text_features_vector, color_features, type_features)

其中 text_features 是术语权重的稀疏向量,color_features 是一个小型 20 元素(one-hot-encoder)颜色密集向量,并且 type_features 也是一种单热编码器类型密集向量。

将这些特征合并到一个大型数组中(使用 Spark 的设施)的好方法是什么,以便我测量任意两个对象之间的余弦距离之类的东西?

最佳答案

您可以使用VectorAssembler :

import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.sql.DataFrame

val df: DataFrame = ???

val assembler = new VectorAssembler()
.setInputCols(Array("text_features", "color_features", "type_features"))
.setOutputCol("features")

val transformed = assembler.transform(df)

有关 PySpark 示例,请参阅:Encode and assemble multiple features in PySpark

关于apache-spark - 如何合并DataFrame中的多个特征向量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33273712/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com