gpt4 book ai didi

apache-spark - 如何理解 Parquet 文件名称的每个部分

转载 作者:行者123 更新时间:2023-12-05 01:39:58 26 4
gpt4 key购买 nike

案例:part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet

我在代码中找不到 parquet 文件的一些规则。有人可以解释一下吗?

代码: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/FileFormatWriter.scala

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/internal/io/FileCommitProtocol.scala

最佳答案

在这种情况下:

part-00000 表示 Split (of a) 分区号。

-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许在不冲突的 Spark Actions 中并发写入进程。

“c000”表示一个计数器,表示一个文件已经为该分区写入的次数。这是零,它指望。老实说,不确定如果超过 999 会发生什么。

关于apache-spark - 如何理解 Parquet 文件名称的每个部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57392368/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com