- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 Azure ML python API 创建了一个表格数据集。所讨论的数据是驻留在跨多个分区的 Azure Data Lake Gen 2 中的一堆 parquet 文件(约 10K parquet 文件,每个文件大小为 330 KB)。当我尝试使用 API TabularDataset.to_pandas_dataframe()
加载数据集时,如果数据集中包含空 Parquet 文件,它会永远持续(挂起)。如果表格数据集不包含那些空的 parquet 文件,TabularDataset.to_pandas_dataframe()
将在几分钟内完成。
通过空 parquet 文件,我的意思是,如果我使用 pandas (pd.read_parquet()) 读取单个 parquet 文件,则会产生空 DF (df.empty == True)。
我在处理[此处][1]
提到的另一个问题时发现了根本原因。
我的问题是,即使存在空 Parquet 文件,如何使 TabularDataset.to_pandas_dataframe()
工作?
更新该问题已在以下版本中修复:
最佳答案
感谢您的举报。这是处理具有列但行集为空的 Parquet 文件时的错误。此问题已得到修复,并将包含在下一版本中。
不过,我无法重现多个文件上的挂起,所以如果您能提供更多信息,那就太好了。
关于当 Parquet 文件为空时,AzureML : TabularDataset. to_pandas_dataframe() 挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71075255/
我正在学习 udemy 上的 azure ml 类(class),但无法解决以下错误: 数据集的“to_pandas_dataframe”操作执行失败(id='id', name='使用 SDK 的贷
我使用 Azure ML python API 创建了一个表格数据集。所讨论的数据是驻留在跨多个分区的 Azure Data Lake Gen 2 中的一堆 parquet 文件(约 10K parq
我是一名优秀的程序员,十分优秀!