gpt4 book ai didi

python - dask csv 阅读顺序

转载 作者:太空宇宙 更新时间:2023-11-04 05:19:15 25 4
gpt4 key购买 nike

我有一个时间序列,其值存储在不同的 csv 中。每个 csv 都经过排序并包含一个变量秒,这是一个时间扫描。

    df = dd.read_csv('/home/data/derived/ips_subnets.7days/*')
df.head()

seconds IP subnet
0 1477252800 Private-10.0.0.0 10.101.15.6
1 1477252800 Private-10.0.0.0 10.102.223.2
2 1477252800 Private-10.0.0.0 10.104.15.43
3 1477252800 Private-10.0.0.0 10.104.5.241
4 1477252800 Private-10.0.0.0 10.106.15.26

现在如何设置 csv 文件应根据变量 seconds 顺序读取?

最佳答案

默认情况下 dask.dataframe.read_csv 按字母顺序读取文件,因此如果您的文件名遵循标准命名方案,例如 2016-05-06.csv 那么您应该没问题。

如果需要,您可以使用 dask.delayed 自定义它.这是一个类似的 example notebook .

最后,您始终可以调用 df = df.set_index('seconds'),但是这比其他方法慢得多,并且需要对数据进行全面扫描。

关于python - dask csv 阅读顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40867365/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com