gpt4 book ai didi

scala - 如何在spark中将单个RDD划分为多个RDD

转载 作者:行者123 更新时间:2023-12-02 01:38:41 25 4
gpt4 key购买 nike

<分区>

我有一个 RDD,其中每个条目都属于一个类。我想将单个 RDD 分成几个 RDD,这样一类的所有条目都进入一个 RDD。假设我在输入 RDD 中有 100 个这样的类,我希望每个类都放入自己的 RDD 中。我可以用每个类的过滤器来做到这一点(如下所示),但它会启动多个作业。有没有更好的方法可以在单个作业中完成?

def method(val input:RDD[LabeledPoint], val classes:List[Double]):List[RDD] = 
classes.map{lbl=>input.filter(_.label==lbl)}

它类似于另一个问题,但我有超过 2 个类(大约 10 个)

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com