gpt4 book ai didi

python - AzureML : Dataset Profile fails when parquet file is empty

转载 作者:行者123 更新时间:2023-12-03 07:08:03 31 4
gpt4 key购买 nike

我使用 Azure ML python API 创建了一个表格数据集。所讨论的数据是驻留在跨多个分区的 Azure Data Lake Gen 2 中的一堆 parquet 文件(约 10K parquet 文件,每个文件大小为 330 KB)。当我触发数据集的“生成配置文件”操作时,它在处理空 Parquet 文件时抛出以下错误,然后配置文件生成停止。

User program failed with ExecutionError: 
Error Code: ScriptExecution.StreamAccess.Validation
Validation Error Code: NotSupported
Validation Target: ParquetFile
Failed Step: 77866d0a-8243-4d3d-8bc6-599d466488dd
Error Message: ScriptExecutionException was caused by StreamAccessException.
Failed to read Parquet file at: <my_blob_path>/20211217.parquet
Current parquet file is not supported.
Exception of type 'Thrift.Protocol.TProtocolException' was thrown.
| session_id=6be4db0b-bdc1-4dd6-b8a6-6e9466f7bc54

通过空 parquet 文件,我的意思是,如果我使用 pandas (pd.read_parquet) 读取单个 parquet 文件,它会产生一个空 DF (df.empty == True)。

任何避免此错误的建议将不胜感激。

更新该问题已在以下版本中修复:

  • azureml-dataprep:3.0.1
  • azureml-core:1.40.0

最佳答案

感谢您的举报。这是处理具有列但行集为空的 Parquet 文件时的错误。此问题已得到修复,并将包含在下一版本中。

关于python - AzureML : Dataset Profile fails when parquet file is empty,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71063820/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com