gpt4 book ai didi

apache-spark - 为什么读取 parquet 文件时会出现 "is not a Parquet file"错误

转载 作者:行者123 更新时间:2023-12-05 06:16:09 25 4
gpt4 key购买 nike

从hdfs读取parquet文件时出现以下错误

2020-06-04 14:11:23 WARN  TaskSetManager:66 - Lost task 44.0 in stage 1.0 (TID 3514, 192.168.16.41, executor 1): java.lang.RuntimeException: hdfs://data-hadoop-hdfs-nn.hadoop:8020/somedata/serviceName=someService/masterAccount=ma/siteAccount=sa/systemCode=111/part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [55, 49, 98, 48]

我在互联网上发现了类似的问题,但大多数人试图读取 parquet 以外的其他文件类型。我 100% 确定该文件是以 parquet 格式编写的,如日志中所示。文件名为 part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet。

只有一个作业写入这个 somdata 文件夹,这个作业只写 parquet(spark 结构化流作业)结尾还说这是一个 Parquet 文件。同一个作业写入的其他 parquet 文件不会抛出此错误

最佳答案

今天遇到同样的错误。对我们来说,问题是我们生成的 parquet 文件大于 2GB,这会破坏一些客户端。

https://issues.apache.org/jira/browse/SPARK-24296

设置 spark 选项 maxRecordsPerFile 来限制为我们固定的文件大小。

关于apache-spark - 为什么读取 parquet 文件时会出现 "is not a Parquet file"错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62197155/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com