gpt4 book ai didi

amazon-s3 - 将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起

转载 作者:行者123 更新时间:2023-12-05 04:15:24 31 4
gpt4 key购买 nike

我正在使用带有 hadoop 2.6 库的 apache spark 1.3.1。我也在使用 s3a 协议(protocol)。我的工作从 s3 存储桶中读取数据,对其进行解析,然后将 parquet 文件写入另一个存储桶。它工作正常,除了作业在完成时挂起并且永远不会退出。关于导致这种情况的原因的任何想法,是否有我需要关闭的资源?

代码非常基础:

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切都成功完成,然后我的工作就挂起了。

最佳答案

所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题

关于amazon-s3 - 将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32230039/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com