gpt4 book ai didi

python - PySpark : Optimize read/load from Delta using selected columns or partitions

转载 作者:行者123 更新时间:2023-12-04 15:24:34 25 4
gpt4 key购买 nike

我正在尝试将数据从 Delta 加载到 pyspark 数据帧中。

path_to_data = 's3://mybucket/daily_data/'
df = spark.read.format("delta").load(path_to_data)
现在基础数据按日期分区为
s3://mybucket/daily_data/
dt=2020-06-12
dt=2020-06-13
...
dt=2020-06-22
有没有办法优化读取数据帧,给定:
  • 只需要特定的日期范围
  • 只需要列的子集

  • 目前的方式,我试过是:
    df.registerTempTable("my_table")
    new_df = spark.sql("select col1,col2 from my_table where dt_col > '2020-06-20' ")
    # dt_col is column in dataframe of timestamp dtype.
    在上述状态下,Spark是否需要加载整个数据,根据日期范围过滤数据,然后过滤需要的列? pyspark read 中是否有任何优化可以加载数据,因为它已经分区?
    在线的东西:
    df = spark.read.format("delta").load(path_to_data,cols_to_read=['col1','col2'])
    or
    df = spark.read.format("delta").load(path_to_data,partitions=[...])

    最佳答案

    在您的情况下,不需要额外的步骤。优化将由 Spark 负责。由于您已经根据列 dt 对数据集进行了分区当您尝试使用分区列查询数据集时 dt作为过滤条件。 Spark 仅加载源数据集中与过滤条件匹配的数据子集,在您的情况下为 dt > '2020-06-20' .
    Spark 在内部进行基于优化的分区修剪。

    关于python - PySpark : Optimize read/load from Delta using selected columns or partitions,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62540229/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com