gpt4 book ai didi

thrift - Parquet:元数据和 common_metadata 之间的区别

转载 作者:行者123 更新时间:2023-12-03 03:14:09 30 4
gpt4 key购买 nike

在写入元数据文件时,ThriftParquetWriter实际上会生成两个文件:_metadata_common_metadata

https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java

这两个文件有什么区别?它们的文件大小不同,因此肯定存在差异

谢谢

最佳答案

查看源代码 https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java在我看来:

_common_metadata 包含该目录中 parquet 文件的合并架构

_metadata 将仅包含该目录中最近写入的 parquet 文件的架构

关于thrift - Parquet:元数据和 common_metadata 之间的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36739940/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com