gpt4 book ai didi

python - pandas ExcelFile 是否在初始化时解析所有工作表? (并且可以避免)

转载 作者:行者123 更新时间:2023-12-01 06:22:01 24 4
gpt4 key购买 nike

我有一系列大型(且格式不良)的 Excel 电子表格,我正在尝试使用 pandas 处理它们。每个 Excel 文件包含 50-60 个工作表,我只对每个文件中的工作表子集感兴趣。

我尝试将整个电子表格读取为 pd.ExcelFile对象,所以我可以使用 sheet_names属性来解析特定的工作表(而且我提前不知道每个工作表的名称)。这可行 - 但似乎异常缓慢(每个约 30mb 的 excel 文件接近一分钟)。

我只能假设这是因为每张纸都被解析为 pd.ExcelFile对象正在初始化(...可能是错误的?)。如果是这样,有没有办法阻止这种行为? - 我真的只想获取工作表名称,然后从那里解析特定的工作表。

提前致谢!

最佳答案

据我所知,pandas 使用 xlrd 或类似的引擎来打开和解析 excel 文件。 xlrd 是 default引擎。当您使用 xlrd 打开 Excel 文件时,它默认加载所有工作表。因此, Pandas 大概也是如此。您可能会更好地使用 xlrd 打开 excel 文件,设置 on_demand kwarg 为 True,然后 defining the df after pulling in data using xlrd.

关于python - pandas ExcelFile 是否在初始化时解析所有工作表? (并且可以避免),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60312760/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com