gpt4 book ai didi

scala - Spark : How to perform undersampling on LabeledPoint?

转载 作者:行者123 更新时间:2023-12-04 23:42:24 25 4
gpt4 key购买 nike

我的 LabeledPoint 中有一些不平衡的数据.我想要做的是选择所有正面和 n负数倍(随机)。例如,如果我有一个 100正面和 30000底片,我想创建新 LabeledPoint与所有 100正面和 300底片 ( n=3 )。

在实际情况中,我不知道一开始有多少正面和负面。

最佳答案

大概你的数据是 RDD[LabeledPoint] .您可以执行以下操作:

val pos = rdd.filter(_.label==1)
val numPos=pos.count()
val neg = rdd.filter(_.label==0).takeSample(false, numPos*3)
val undersample = pos.union(neg)

您可以找到 takeSample 的文档, filter , 和 union here .

关于scala - Spark : How to perform undersampling on LabeledPoint?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33895789/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com