gpt4 book ai didi

hadoop - 谁能解释一下 c000 在 c000.snappy.parquet 或 c000.snappy.orc 中的含义?

转载 作者:可可西里 更新时间:2023-11-01 15:03:52 27 4
gpt4 key购买 nike

我已经搜索了每个文档,但仍然没有找到为什么有前缀以及以下文件命名约定中的 c000 是什么:

文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy. Parquet

最佳答案

您应该使用“空谈很便宜,给我看代码”。方法。一切都没有记录,一种方法就是编写代码。

考虑 part-1-2_3-4.parquet :

  1. 分割/分区号。

  2. 随机 UUID 以防止不同(追加)写入作业之间发生冲突。

  3. 唯一的工作/任务 ID(有时不包括在内)。
  4. “c”代表计数。这是文件计数器,表示过去为此特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。

我是根据this code找到的和 this code .

关于hadoop - 谁能解释一下 c000 在 c000.snappy.parquet 或 c000.snappy.orc 中的含义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49165696/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com