gpt4 book ai didi

python - 根据工作表名称从多个Excel工作簿中创建数据框?

转载 作者:行者123 更新时间:2023-12-04 20:33:33 24 4
gpt4 key购买 nike

我有一个包含数百个 Excel 文件的文件夹,所有文件的组织方式相同,每个工作簿中有九张工作表。我正在运行以下代码来迭代文件并为所有工作簿中的每个工作表创建一个数据框(因此数据框“sheet_a_df”将是每个工作簿中连接成单个数据框的工作表“a”)。

sheet_a_df = pd.DataFrame()
for file in glob.glob('C:\\Users\*.xlsx'):
df = pd.read_excel(file,sheetname='a')
sheet_1_df = sheet_1_df.append(df,ignore_index=True).dropna()

sheet_b_df = pd.DataFrame()
for file in glob.glob('C:\\Users\\*.xlsx'):
df = pd.read_excel(file,sheetname='b')
sheet_b_df = sheet_b_df.append(df,ignore_index=True).dropna()

# And so on for all nine sheet names...

但是,这需要复制和粘贴代码九次(每张纸一次)。

有没有更合适的方法来做到这一点?

审核 this question ,我知道字典是在 for 循环中创建多个数据帧的方法。我还尝试根据工作表的名称命名每个 df。我创建了一个工作表名称列表并尝试了以下代码,但得到一个 KeyError ,它只返回第一个工作表的名称。
sheet_names = ['a',
'b',
'c',
...,]

df_dict = {}

for file in glob.glob('C:\\Users\*.xlsx'):
for sheet in sheet_names:
df = pd.read_excel(file,sheetname=sheet)
df_dict[sheet] = df_dict[sheet].append(df)

有没有办法修复上述代码以创建所有九个 dfs,同时根据它们来自的工作表命名它们?

最佳答案

您可以利用这样一个事实,如果您通过 list sheetname 的工作表名称pd.read_excel 的参数函数,它将返回一个数据框字典,其中键是工作表名称,值是与这些工作表名称对应的数据框。结果,以下内容应该为您提供连接数据帧的字典:所有“a”数据帧在一起,所有“b”数据帧在一起,依此类推。

sheet_names = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']
data = {}
for fn in glob.glob('C:\\Users\*.xlsx'):
dfs = pd.read_excel(fn, sheetname=sheet_names)
for k in dfs:
data.setdefault(k, pd.DataFrame())
data[k] = pd.concat([data[k], dfs[k]])

现在 data应该是数据帧字典,其键包含 sheet_names 中的元素.它的值是文件中相应工作表名称的串联数据框。

我希望这有帮助。

关于python - 根据工作表名称从多个Excel工作簿中创建数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45890357/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com