gpt4 book ai didi

python - 在Python中读取具有大量列的文件

转载 作者:行者123 更新时间:2023-11-30 22:34:28 24 4
gpt4 key购买 nike

我有一个巨大的 csv 文件,大约有 400 万列和大约 300 行。文件大小约为4.3G。我想读取这个文件并对数据运行一些机器学习算法。

我尝试通过Python中的pandas read_csv读取文件,但即使读取一行也需要很长时间(我怀疑是由于列数较多)。我检查了一些其他选项,例如 numpy fromfile ,但似乎没有任何效果。

有人可以建议一些在 python 中加载包含多列的文件的方法吗?

最佳答案

Pandas/numpy 应该能够毫无问题地处理这么大的数据量。我希望您的机器上至少有 8GB RAM。要使用 Numpy 导入 CSV 文件,请尝试类似

data = np.loadtxt('test.csv', dtype=np.uint8, delimiter=',')

如果缺少数据,np.genfromtext 可能会起作用。如果这些都不能满足您的需求,并且您有足够的 RAM 来临时保存数据的副本,您可以首先使用 readline 和 str.split 构建一个 Python 列表,每行一个。然后将其传递给 Pandas 或 numpy,假设这就是您打算对数据进行操作的方式。然后,您可以将其以某种格式保存到磁盘,以便以后更容易提取。 hdf5 已经提到过,是一个不错的选择。您还可以使用 numpy.savez 或我最喜欢的快速 bloscpack.(un)pack_ndarray_file 将 numpy 数组保存到磁盘。

关于python - 在Python中读取具有大量列的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44835126/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com