gpt4 book ai didi

python - 在 Pandas 中解析大型 CSV 文件的最快方法

转载 作者:IT老高 更新时间:2023-10-28 20:28:53 26 4
gpt4 key购买 nike

我正在使用 pandas 来分析大型 CSV 数据文件。它们的大小约为 100 兆。

每次从 csv 加载需要几秒钟,然后转换日期需要更多时间。

我尝试加载文件,将日期从字符串转换为日期时间,然后将它们重新保存为 pickle 文件。但是加载这些也需要几秒钟。

我可以使用哪些快速方法从磁盘加载/保存数据?

最佳答案

正如@chrisb 所说,pandas 的 read_csv 可能比 csv.reader/numpy.genfromtxt/loadtxt 快。我认为您不会找到更好的解析 csv 的方法(请注意,read_csv 不是“纯 python”解决方案,因为 CSV 解析器是用 C 实现的)。

但是,如果您必须经常加载/查询数据,解决方案是只解析 CSV 一次,然后将其存储为另一种格式,例如 HDF5。您可以使用 pandas(在后台使用 PyTables)来有效地查询(docs)。
有关 HDF5、csv 和 SQL 与 pandas 的 io 性能比较,请参见此处:http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations

还有一个可能相关的其他问题:"Large data" work flows using pandas

关于python - 在 Pandas 中解析大型 CSV 文件的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25508510/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com