gpt4 book ai didi

python - R中大文件的数据格式是什么?

转载 作者:太空狗 更新时间:2023-10-30 02:58:11 26 4
gpt4 key购买 nike

我用 Python 生成了一个非常大的数据文件,其中大部分由 0 (false) 和少数 1 (true) 组成。它有大约 700.000 列和 15.000 行,因此大小为 10.5GB。第一行是标题。
然后需要在 R 中读取和可视化此文件。

我正在寻找正确的数据格式以从 Python 导出我的文件。

如前所述here :

HDF5 is row based. You get MUCH efficiency by having tables that are not too wide but are fairly long.

因为我有一个非常宽的表,我假设 HDF5 不适合我的情况?

那么什么数据格式最适合这个目的?
压缩 (zip) 它也有意义吗?

我的文件示例:

id,col1,col2,col3,col4,col5,...
1,0,0,0,1,0,...
2,1,0,0,0,1,...
3,0,1,0,0,1,...
4,...

最佳答案

压缩对您没有帮助,因为您必须解压缩才能处理它。如果您可以发布生成文件的代码,那可能会有很大帮助。另外,你想在 R 中完成什么?在 Python 中可视化它会不会更快,避免 10.5GB 的读/写?

也许重新考虑您存储数据的方法(例如:如果数据很少,则存储 1 的坐标)可能是一个更好的角度。

例如,我可能只存储元组 (600492, 10786) 并在 R 中实现相同的可视化,而不是在第 600492 行第 10786 列中存储除 1 以外的所有零的 700K x 15K 表。

关于python - R中大文件的数据格式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34887545/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com