gpt4 book ai didi

java - Spark Scala 中的任务不可序列化错误

转载 作者:太空宇宙 更新时间:2023-11-04 12:27:18 25 4
gpt4 key购买 nike

我正在尝试将 csv 文件读入 Spark 中的 RDD(使用 Scala)。我创建了一个函数来首先过滤数据,以便它不考虑标题。

def isHeader(line: String): Boolean = {
line.contains("id_1")
}

然后我运行以下命令:

val noheader = rawblocks.filter(x => !isHeader(x))

rawblocks RDD 从大小为 26MB 的 csv 文件中读取数据

我收到任务不可序列化错误。有什么解决办法吗?

最佳答案

很可能,您已在不可序列化的类中定义了 isHeader 方法。因此,isHeader 绑定(bind)到所述类的不可序列化实例,然后通过闭包将其传送给执行器。

您可能想要在单独的对象中定义 isHeader,或者使封闭类可序列化(这不是一个好的做法,因为您仍然会随作业一起传送整个类实例,这不是预期的)。

关于java - Spark Scala 中的任务不可序列化错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38237246/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com