gpt4 book ai didi

hadoop - 用于平面数据结构的Apache Parquet

转载 作者:行者123 更新时间:2023-12-02 20:32:02 26 4
gpt4 key购买 nike

Parquet is built from the ground up with complex nested data structures in mind, and uses the record shredding and assembly algorithm described in the Dremel paper.



我知道,对于通用存储格式,必须支持嵌套结构。但是,在平面数据的情况下,似乎记录的粉碎和汇编(以及可能需要额外的存储用于定义和重复级别)的开销似乎是多余的。

开销可以忽略不计吗?是否有其他可用的列式存储格式?

最佳答案

我认为,无论是否使用该格式的文件都支持算法,仅具有结构化文件类型的好处都比使用纯文本文件更好。

XML文件可以具有架构,但是太冗长,并且不包含诸如Parquet之类的列统计信息。

ORC,RCFile和RecordIO是用于存储的备用列格式。

Apache Arrow是内存中的列式格式

关于hadoop - 用于平面数据结构的Apache Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52909777/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com