gpt4 book ai didi

hadoop - HDFS 工业存储标准文件格式?

转载 作者:可可西里 更新时间:2023-11-01 16:25:17 37 4
gpt4 key购买 nike

在 HDFS 中存储数据以获得更好的性能和更好地利用集群的文件格式的顶级工业实现方法是什么?

与普通文本文件相比,以 parquet 文件格式存储数据似乎提供了良好的性能数字。将 parquet 与 snappy 压缩结合使用可提供性能以及在空间方面更好地利用集群。

所以我的问题是是只使用 parquet 文件格式还是使用 parquet 加上 snappy 压缩来将数据存储在 HDFS 上。什么是工业标准方法,为什么?非常感谢任何帮助。

最佳答案

据我所知,Parquet format with Snappy Compression 效率很高,在工业界应用广泛。您也可以使用 Avro,但这取决于您的用例。互联网上的比较统计:

Uncompressed CSV              : 1.8 GB 
Avro : 1.5 GB
Avro w/ Snappy Compression : 750 MB
Parquet w/ Snappy Compression : 300 MB

你可以看看this文档以获取更多详细信息。

关于hadoop - HDFS 工业存储标准文件格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35594744/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com