gpt4 book ai didi

scala - 函数在 Spark 中返回一个空列表

转载 作者:行者123 更新时间:2023-12-01 12:31:02 27 4
gpt4 key购买 nike

下面是获取压缩文件中文件名列表的代码

def getListOfFilesInRepo(zipFileRDD : RDD[(String,PortableDataStream)]) : (List[String]) = {
val zipInputStream = zipFileRDD.values.map(x => new ZipInputStream(x.open))
val filesInZip = new ArrayBuffer[String]()
var ze : Option[ZipEntry] = None
zipInputStream.foreach(stream =>{
do{
ze = Option(stream.getNextEntry);
ze.foreach{ze =>
if(ze.getName.endsWith("java") && !ze.isDirectory()){
var fileName:String = ze.getName.substring(ze.getName.lastIndexOf("/")+1,ze.getName.indexOf(".java"))
filesInZip += fileName
}
}
stream.closeEntry()
} while(ze.isDefined)
println(filesInZip.toList.length) // print 889 (correct)
})
println(filesInZip.toList.length) // print 0 (WHY..?)
(filesInZip.toList)
}

我按以下方式执行上面的代码:

scala> val zipFileRDD = sc.binaryFiles("./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip")
zipFileRDD: org.apache.spark.rdd.RDD[(String, org.apache.spark.input.PortableDataStream)] = ./handsOn/repo~apache~storm~14135470~false~Java~master~2210.zip BinaryFileRDD[17] at binaryFiles at <console>:25

scala> getListOfFilesInRepo(zipRDD)
889
0
res12: List[String] = List()

为什么我没有得到 889 而是得到 0?

最佳答案

发生这种情况是因为 filesInZip 没有在工作人员之间共享。 foreachfilesInZip 的本地副本进行操作,当它完成时,这个副本将被简单地丢弃并被垃圾收集。如果您想保留结果,您应该使用转换(很可能是 flatMap)并返回收集的聚合值。

def listFiles(stream: PortableDataStream): TraversableOnce[String] = ???

zipInputStream.flatMap(listFiles)

您可以从 Understanding closures 了解更多信息

关于scala - 函数在 Spark 中返回一个空列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34178718/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com