gpt4 book ai didi

apache-spark - 如何查看 Parquet 元数据中的最小/最大索引?

转载 作者:行者123 更新时间:2023-12-05 00:51:21 25 4
gpt4 key购买 nike

我正在尝试使用 Parquet 的最小/最大索引。我正在关注这里的问题/答案:Spark Parquet Statistics(min/max) integration

scala> val foo = spark.sql("select id, cast(id as string) text from range(1000)").sort("id") 

scala> foo.printSchema

root
|-- id: long (nullable = false)
|-- text: string (nullable = false)

当我查看单个 Parquet 文件时,我看不到任何最小值/最大值
> parquet-tools meta part-00000-tid-5174196010762120422-9

5fb2e22-0dfb-4597-bdca-4fb573873959-0-c000.gz.parquet
file: file:.../part-00000-tid-5174196010762120422-95fb2e22-0dfb-4597-bdca-4fb573873959-0-c000.gz.parquet
creator: parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)
extra: org.apache.spark.sql.parquet.row.metadata = {"type":"struct","fields":[{"name":"id","type":"long","nullable":false,"metadata":{}},{"name":"text","type":"string","nullable":false,"metadata":{}}]}

file schema: spark_schema
--------------------------------------------------------------------------------
id: REQUIRED INT64 R:0 D:0
text: REQUIRED BINARY O:UTF8 R:0 D:0

row group 1: RC:125 TS:1840 OFFSET:4
--------------------------------------------------------------------------------
id: INT64 GZIP DO:0 FPO:4 SZ:259/1044/4.03 VC:125 ENC:PLAIN,BIT_PACKED
text: BINARY GZIP DO:0 FPO:263 SZ:263/796/3.03 VC:125 ENC:PLAIN,BIT_PACKED

我试过 .sortWithinPartitions("id") ,结果相同。

最佳答案

您可以使用 parquet-tools 查看统计信息。在你的情况下,你会跑
parquet-tools dump -d -n part-00000-tid-5174196010762120422-95fb2e22-0dfb-4597-bdca-4fb573873959-0-c000.gz.parquet
截至今天(2017 年 6 月 9 日),带有 Parquet 1.8.1 的 Spark 2.1.1 不会生成二进制列(如字符串)的统计信息。

关于apache-spark - 如何查看 Parquet 元数据中的最小/最大索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44334920/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com