gpt4 book ai didi

java - 如何在 Windows 中查看 Apache Parquet 文件?

转载 作者:搜寻专家 更新时间:2023-10-30 21:03:41 26 4
gpt4 key购买 nike

我找不到关于 Apache Parquet 文件的任何简单的英文解释。如:

  1. 它们是什么?
  2. 我是否需要 Hadoop 或 HDFS 来查看/创建/存储它们?
  3. 如何创建 parquet 文件?
  4. 如何查看 parquet 文件?

感谢任何有关这些问题的帮助。

最佳答案

什么是 Apache Parquet?

Apache Parquet 是一种二进制文件格式,以柱状方式存储数据。Parquet 文件中的数据类似于具有列和行的 RDBMS 样式表。但是,您通常不会一次访问一行数据,而是一次访问一列数据。

Apache Parquet 是现代大数据存储格式之一。它有几个优点,其中一些是:

  • 列式存储:高效数据检索、高效压缩等……
  • 元数据位于文件末尾:允许从数据流生成 Parquet 文件。 (常见于大数据场景)
  • 所有 Apache 大数据产品均支持

我需要 Hadoop 还是 HDFS?

没有。 Parquet 文件可以存储在任何文件系统中,而不仅仅是 HDFS。如上所述,它是一种文件格式。所以它就像任何其他文件一样,它有一个名称和一个 .parquet 扩展名。不过,在大数据环境中通常会发生的情况是,一个数据集将被拆分(或分区)为多个 parquet 文件,以提高效率。

所有的Apache大数据产品都默认支持Parquet文件。这就是为什么它看起来只能存在于 Apache 生态系统中的原因。

如何创建/读取 Parquet 文件?

如前所述,目前所有的Apache大数据产品,如Hadoop、Hive、Spark等,都默认支持Parquet文件。

因此可以利用这些系统生成或读取 Parquet 数据。但这远非实用。想象一下,为了读取或创建 CSV 文件,您必须安装 Hadoop/HDFS + Hive 并配置它们。幸运的是还有其他解决方案。

创建您自己的 parquet 文件:

查看 parquet 文件内容:

还有其他方法吗?

可能吧。但是存在的并不多,而且大多数都没有很好的记录。这是因为 Parquet 是一种非常复杂的文件格式(我什至找不到正式的定义)。我列出的是我在撰写此回复时唯一知道的内容

关于java - 如何在 Windows 中查看 Apache Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50933429/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com