gpt4 book ai didi

apache-spark - 如何使用 Spark 从保存的文件中加载数据

转载 作者:行者123 更新时间:2023-12-04 04:08:00 27 4
gpt4 key购买 nike

Spark 提供方法 saveAsTextFile哪个可以存储RDD[T]轻松进入磁盘或 HDFS。

T 是一个任意的可序列化类。

我想反转操作。
不知道有没有loadFromTextFile它可以轻松地将文件加载到 RDD[T] ?

让我说清楚:

class A extends Serializable {
...
}

val path:String = "hdfs..."
val d1:RDD[A] = create_A

d1.saveAsTextFile(path)

val d2:RDD[A] = a_load_function(path) // this is the function I want

//d2 should be the same as d1

最佳答案

尝试使用 d1.saveAsObjectFile(path)存储和 val d2 = sc.objectFile[A](path)装载。

我想你不能saveAsTextFile并读出为 RDD[A]未经改造自 RDD[String]

关于apache-spark - 如何使用 Spark 从保存的文件中加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30253969/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com