gpt4 book ai didi

apache-spark - Spark Parquet 读取错误 : java. io.EOFException:到达流的末尾,还有 XXXXX 个字节可供读取

转载 作者:行者123 更新时间:2023-12-04 04:22:59 35 4
gpt4 key购买 nike

在 Spark 中读取 Parquet 文件时,如果您遇到以下问题。

应用程序 > 线程“main”org.apache.spark.SparkException 中的异常:由于阶段失败而中止作业:阶段 2.0 中的任务 0 失败 4 次,最近失败:阶段 2.0 中丢失任务 0.3(TID 44、10.23.5.196、执行程序 2): java.io.EOFException: 到达流的末尾,还有 193212 个字节可供读取
应用程序 > 在 org.apache.parquet.io.DelegatingSeekableInputStream.readFully(DelegatingSeekableInputStream.java:104)
应用程序 > 在 org.apache.parquet.io.DelegatingSeekableInputStream.readFullyHeapBuffer(DelegatingSeekableInputStream.java:127)
应用程序 > 在 org.apache.parquet.io.DelegatingSeekableInputStream.readFully(DelegatingSeekableInputStream.java:91)
应用程序 > 在 org.apache.parquet.hadoop.ParquetFileReader$ConsecutiveChunkList.readAll(ParquetFileReader.java:1174)
应用程序 > 在 org.apache.parquet.hadoop.ParquetFileReader.readNextRowGroup(ParquetFileReader.java:805)
应用程序 > 在 org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.checkEndOfRowGroup(VectorizedParquetRecordReader.java:301)
应用程序 > 在 org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextBatch(VectorizedParquetRecordReader.java:256)
应用程序 > 在 org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextKeyValue(VectorizedParquetRecordReader.java:159)
应用程序 > 在 org.apache.spark.sql.execution.datasources.RecordReaderIterator.hasNext(RecordReaderIterator.scala:39)
应用程序 > 在 org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:124)
应用程序 > 在 org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:215)

对于以下 spark 命令:

val df = spark.read.parquet("s3a://.../file.parquet")
df.show(5, false)

最佳答案

我认为你可以绕过这个问题

--conf  spark.sql.parquet.enableVectorizedReader=false

关于apache-spark - Spark Parquet 读取错误 : java. io.EOFException:到达流的末尾,还有 XXXXX 个字节可供读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58619600/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com