gpt4 book ai didi

python - 使用 Dask 加载多个 CSV 文件时混合列

转载 作者:太空宇宙 更新时间:2023-11-03 21:37:23 24 4
gpt4 key购买 nike

我尝试使用 dask 导入一堆 csv 文件,但我的列似乎混淆了。

import pandas as pd
import dask.dataframe as dd
import numpy as np

names = ['date', 'country', 'A', 'B']

dtypes = {'booking_date': object, 'booking_country': object,
'A': object, 'B': np.float32}

dask_df = dd.read_csv("folder/file_*.csv", dtype=dtypes,
header=None, names=names, skiprows=1)

数据框具有以下形状:

        date country    A         B
0 2019-07-24 ALB XX 0.041786
1 2019-07-24 AND XX 0.022168
2 2019-07-24 ARE YY 0.177757
3 2019-07-24 ARM YY 0.024475
4 2019-07-24 AUT ZZ 0.287205

当我想继续使用它时,某些列的 A 列和 B 列似乎混淆了。有谁知道为什么会发生这种情况以及我如何避免它?

如果我使用 glob.glob 创建文件列表,然后使用 pandas 对其进行 for 循环,则不会出现此问题。这样做的 glob 方式是否会解释每个文件的标题,而 dask 则不会,以防列混合在我的输入数据集中?

提前非常感谢您!

蒂姆

最佳答案

感谢您的帮助。

显然我的一些文件的列顺序错误,dask 无法处理。 https://github.com/d6t/d6tstack/blob/master/examples-dask.ipynb会解决这个问题,但我还没有时间测试它。

关于python - 使用 Dask 加载多个 CSV 文件时混合列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53159004/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com