gpt4 book ai didi

apache-spark - spark read parquet with partition filters vs 完整路径

转载 作者:行者123 更新时间:2023-12-04 09:32:09 25 4
gpt4 key购买 nike

我在 hdfs 示例中有一个分区的 parquet 数据:hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/hour=23/

我想了解哪种是读取数据的最佳方式:

df = spark.read.parquet("hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/")。其中(col('小时')==“23”)

df = spark.read.parquet("hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=india/year=2020/month=06/day=30/hour=23 ")

如果有的话,我想了解更多有关性能和其他优势的信息。

最佳答案

这非常简单,我们在读取文件时要做的第一件事是使用 df = df.filter() 过滤掉不必要的列,这甚至会在读入之前过滤掉数据内存,高级文件格式,如 parquet,ORC 支持概念预测下推更多 here ,这使您能够以比加载完整数据更快的方式读取数据。

关于apache-spark - spark read parquet with partition filters vs 完整路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62788550/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com