gpt4 book ai didi

python - 如何在 PySpark 中连接两个 LabeledPoints 的特征列

转载 作者:行者123 更新时间:2023-12-01 04:17:53 24 4
gpt4 key购买 nike

我有两个 LabeledPoints - lable1label2:

label1 = (label,[feature1,feature2,feature3])
label2 = (label,[feature4,feature5])

两个LabeledPoints中的label列是相同的,我想形成一个具有feature的新LabeledPoint来自连接在一起的两个 LabeledPoints 的列:

label_new = (label,[feature1,feature2,feature3,feature4,feature5])

如何将两个 LabeledPoints 添加在一起?

最佳答案

正如您在 LabeledPoint 中看到的那样在 PySpark 的文档中,一个 LabeledPoint 对象有两个属性 labelfeatures,因此我们可以使用 features 属性来实现这一点。

from pyspark.mllib.regression import LabeledPoint
import numpy as np

a = LabeledPoint(0, [1,2,3])
b = LabeledPoint(0, [3,1,2])
c = LabeledPoint(a.label, np.concatenate((a.features, b.features), axis=0))

print c # LabeledPoint(0.0, [1.0,2.0,3.0,3.0,1.0,2.0])

注意,您必须小心标签值!它们可能有所不同。

关于python - 如何在 PySpark 中连接两个 LabeledPoints 的特征列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34100042/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com