gpt4 book ai didi

hadoop - Avro、parquet 和 SequenceFileFormat 在 Hadoop 生态系统中的地位及其效用

转载 作者:可可西里 更新时间:2023-11-01 15:02:14 26 4
gpt4 key购买 nike

我看到在导入和存储到 HDFS 时使用了不同的文件格式,并且数据处理引擎在执行它们自己的一组过程时也使用这些格式。那么这些文件格式有什么样的区别,以及如何为不同的文件格式做出选择用例。作为新手,它会造成混淆。请帮助相同的人。

最佳答案

选择取决于您所面临的用例,具体取决于您拥有的数据类型、与处理工具的兼容性、模式演变、文件大小、查询类型和读取性能。

一般来说:

  • Avro 更适合随时间变化的事件数据
  • 序列用于在 MR 作业之间分片的数据集
  • Parquet 的柱状格式更适合分析

这里有一些可以帮助你的关键

写入性能(越多+越快)

  • 顺序:+++
  • 阿夫罗:++
  • Parquet :+

阅读性能(越多+越快)

  • 顺序:+
  • 阿夫罗:+++
  • Parquet :+++++

文件大小(越多+文件越小)

  • 顺序:+
  • 阿夫罗:++
  • Parquet :+++

这里是关于每种文件类型的一些事实

阿芙罗:

  • 更好地进行模式演化
  • 是面向行的二进制格式
  • 有架构
  • 除了数据之外,该文件还包含架构。
  • 支持模式演变
  • 可以压缩
  • 紧凑快速的二进制格式

Parquet :

  • 写的慢但读的快
  • 是面向列的二进制格式
  • 支持压缩
  • 当需要查询特定列时,在磁盘 I/O 方面进行了优化和高效

序列文件:

  • 是面向行的格式
  • 即使数据被压缩也支持拆分
  • 可以用来在hadoop中打包小文件

希望我的回答对您有所帮助

关于hadoop - Avro、parquet 和 SequenceFileFormat 在 Hadoop 生态系统中的地位及其效用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34657432/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com