gpt4 book ai didi

Python Dask - 读取具有不同列名的多个文件

转载 作者:行者123 更新时间:2023-12-01 09:07:29 26 4
gpt4 key购买 nike

我有 12 个文件,对应一年中的每个月。它们有 MultipleIndexes 和一个名称为给定月份的列。

一月文件

                    Jan
index_0 | index_1 |

bla | bla | 3

二月文件

                    Feb
index_0 | index_1 |

bla | bla | 2

我想阅读这些文件:

df = dd.read_csv(
location + "*.txt",
sep=';',
header=0
)

输出

                    Jan
index_0 | index_1 |

bla | bla | 3
bla | bla | 2

问题是我丢失了一条信息,我不再有月份了。

预期输出

                    Month  | Value
index_0 | index_1 |

bla | bla | Jan 3
bla | bla | Feb 2

如何在数据框中保留月份?

最佳答案

当您想要超出 read_csv 提供的自定义行为时,您应该转向 dask.delayed:

def load_func(fn):

df = pd.read_csv(
location + "*.txt",
sep=';',
header=0
)
df['month'] = df.columns[0]
df.columns = ['value', 'month']
return df


ddf = dd.from_delayed([dask.delayed(load_func)(fn) for fn in files])

关于Python Dask - 读取具有不同列名的多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51931942/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com