gpt4 book ai didi

python-3.x - dask.dataframe.read_parquet 耗时太长

转载 作者:行者123 更新时间:2023-12-04 15:45:14 25 4
gpt4 key购买 nike

我试着像这样从 s3 读取 Parquet :

import dask.dataframe as dd

s3_path = "s3://my_bucket/my_table"
times = dd.read_parquet(
s3_path,
storage_options={
"client_kwargs": {
"endpoint_url": bucket_endpoint_url,
},
"profile_name": bucket_profile,
},
engine='pyarrow',
)

仅创建一个 dask 数据框就需要很长时间。尚未对此数据帧执行任何计算。我跟踪代码,它看起来像是在 pyarrow.parquet.validate_schema() 中花费时间

我的 Parquet 表中有很多文件(约 2000 个文件)。在我的笔记本电脑上创建数据框需要 543 秒。它正在尝试检查每个 Parquet 文件的架构。有没有办法禁用架构验证?

谢谢,

最佳答案

目前,如果没有元数据文件并且您正在使用 PyArrow 后端,那么 Dask 可能会发送请求以从 S3 上的每个单独分区读取元数据。这很慢。

Dask 的 dataframe parquet reader 现在正在重写以帮助解决这个问题。您可能会考虑在此之前使用 fastparquet 和 ignore_divisions 关键字(或类似的东西),或者在一两个月后再回来查看。

关于python-3.x - dask.dataframe.read_parquet 耗时太长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56118365/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com