gpt4 book ai didi

apache-spark - 在 Parquet 中使用嵌套数据类型有什么好处?

转载 作者:行者123 更新时间:2023-12-05 01:43:26 25 4
gpt4 key购买 nike

在 Parquet 文件格式中使用嵌套数据类型是否有任何性能优势?

AFAIK Parquet 文件通常是专门为查询服务创建的,例如Athena,因此创建这些值的过程还不如简单地展平值 - 从而允许更轻松的查询、更简单的架构并保留每列的列统计信息。

使用嵌套数据类型有什么好处? 结构?

最佳答案

在 parquet 中保留嵌套结构会产生负面影响。问题是如果 parquet 文件中有嵌套结构,则 spark 谓词下推无法正常工作。

因此,即使您在 parquet 数据集中使用的字段很少,spark 也会加载并具体化整个数据集。

这是 ticket关于这个问题已经打开了很长时间。

编辑

该问题已在 spark 2.4 版本中得到解决。

关于apache-spark - 在 Parquet 中使用嵌套数据类型有什么好处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49474814/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com