gpt4 book ai didi

python - 使用 Pandas 动态创建数据框

转载 作者:太空宇宙 更新时间:2023-11-03 21:18:21 25 4
gpt4 key购买 nike

我有一个巨大的数据集,我想根据第一列的字符串值将其拆分为几个较小的数据集。

到目前为止,我已经删除了最终数据帧中不需要的所有信息,并使用数据帧字典动态创建,但无济于事,并创建了分割。

对于数据帧字典,我尝试过:

dict = {}
number_of_df= 0

for i in range(df.shape[0]):
if df[i:] != df[i-1]:
number_of_df += 1

for i in range(len(number_of_df)):
d['t' + str(i)] = df.shift(i).add_suffix('_t' + str(i))

复制行的值,直到行中的第一个值与前一个值不同:

for key in dict:
while df[i:] == df[i-1:]:
df[key].append= df2.loc[df1.index[i]] = df1.iloc[i]

df[key].to_csv('file'+str(key)+'.csv', index=False)

我希望它创建多个 CSV,每个文件都按照创建顺序命名。我有几个错误,首先它在创建字典时显示 Key error: -1 并且只创建一个空字典,并且在切片时不返回任何错误,但也不向字典写入任何内容。我还认为我可能错误地指出了我想要在字典中更改的行和值。

提前感谢我的英语,不是母语,而且也是一个完整的n00b。

最佳答案

I want to split in several smallers ones, based on the string values of the first column.

这比你想象的要容易。只需将 groupby 与第一列一起使用,然后使用 dict + tuple 构建字典。您可以通过索引df.columns选择第一列。

dct = dict(tuple(df.groupby(df.columns[0])))

如果您需要将每个数据帧导出到 CSV 文件,则不需要额外的字典费用。只需直接迭代 groupby 对象即可:

for key, df_slice in df.groupby(df.columns[0]):
df_slice.to_csv(f'file_{key}.csv', index=False)

关于python - 使用 Pandas 动态创建数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54514841/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com