gpt4 book ai didi

当 Parquet 文件为空时,AzureML : TabularDataset. to_pandas_dataframe() 挂起

转载 作者:行者123 更新时间:2023-12-03 02:16:23 25 4
gpt4 key购买 nike

我使用 Azure ML python API 创建了一个表格数据集。所讨论的数据是驻留在跨多个分区的 Azure Data Lake Gen 2 中的一堆 parquet 文件(约 10K parquet 文件,每个文件大小为 330 KB)。当我尝试使用 API TabularDataset.to_pandas_dataframe() 加载数据集时,如果数据集中包含空 Parquet 文件,它会永远持续(挂起)。如果表格数据集不包含那些空的 parquet 文件,TabularDataset.to_pandas_dataframe() 将在几分钟内完成。

通过空 parquet 文件,我的意思是,如果我使用 pandas (pd.read_parquet()) 读取单个 parquet 文件,则会产生空 DF (df.empty == True)。

我在处理[此处][1]提到的另一个问题时发现了根本原因。

我的问题是,即使存在空 Parquet 文件,如何使 TabularDataset.to_pandas_dataframe() 工作?

更新该问题已在以下版本中修复:

  • azureml-dataprep:3.0.1
  • azureml-core:1.40.0

最佳答案

感谢您的举报。这是处理具有列但行集为空的 Parquet 文件时的错误。此问题已得到修复,并将包含在下一版本中。

不过,我无法重现多个文件上的挂起,所以如果您能提供更多信息,那就太好了。

关于当 Parquet 文件为空时,AzureML : TabularDataset. to_pandas_dataframe() 挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71075255/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com