gpt4 book ai didi

hadoop - Parquet API 没有Keys 的概念?

转载 作者:可可西里 更新时间:2023-11-01 14:29:00 25 4
gpt4 key购买 nike

好的,所以在获得关于无法通过 spark 将 key 写入 parquet 文件的异常之后,我查看了 API 并仅找到了这个。

public class ParquetOutputFormat<T> extends FileOutputFormat<Void, T> {....

(我的假设可能是错误的 =D,某处可能还有另一个 API。)

好吧,这有一些扭曲的意义,毕竟你可以在数据从容器文件中具体化时投影/限制数据。不过,只是为了安全起见。 Parquet 文件没有序列文件“键”值的概念,对吗?

我觉得这有点奇怪,Hadoop 基础架构是围绕一个序列文件可能有一个 key 这一事实构建的。而且我假设这个 key 被自由地用于将数据分区为局部性的 block (而不是在 HDFS 级别 ofc)? Spark 有很多 API 调用,这些 API 调用与代码一起进行归约和连接等。现在我必须执行额外的步骤来将键从物化对象的主体映射出来。很奇怪。

那么,为什么 key 在 Parquet 世界中不是一等公民,有什么充分的理由吗?

最佳答案

你是对的。 Parquet 文件不是键/值文件格式。这是一种柱状格式。您的“键”可以是表格中的特定列。但它不像 HBase,在那里你有一个真正的关键概念。 Parquet 不是序列文件。

关于hadoop - Parquet API 没有Keys 的概念?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21662663/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com