gpt4 book ai didi

apache-spark - 如何将RDD复制到多个RDD中?

转载 作者:行者123 更新时间:2023-12-04 11:37:06 26 4
gpt4 key购买 nike

是否可以将一个 RDD 复制到两个或多个 RDD 中?

我想使用 cassandra-spark 驱动程序并将 RDD 保存到 Cassandra 表中,此外,继续进行更多计算(并最终将结果也保存到 Cassandra)。

最佳答案

RDD s 是不可变的,RDD 上的转换会创建新的 RDD。因此,没有必要创建 RDD 的副本来应用不同的操作。

您可以将基本 RDD 保存到二级存储并进一步对其应用操作。

这完全没问题:

val rdd = ???
val base = rdd.byKey(...)
base.saveToCassandra(ks,table)
val processed = byKey.map(...).reduceByKey(...)
processed.saveToCassandra(ks,processedTable)
val analyzed = base.map(...).join(suspectsRDD).reduceByKey(...)
analyzed.saveAsTextFile("./path/to/save")

关于apache-spark - 如何将RDD复制到多个RDD中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28024715/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com