python - R中大文件的数据格式是什么？-6ren

python - R中大文件的数据格式是什么？

转载作者：太空狗更新时间：2023-10-30 02:58:11

26

4

我用 Python 生成了一个非常大的数据文件，其中大部分由 0 (false) 和少数 1 (true) 组成。它有大约 700.000 列和 15.000 行，因此大小为 10.5GB。第一行是标题。
然后需要在 R 中读取和可视化此文件。

我正在寻找正确的数据格式以从 Python 导出我的文件。

如前所述here :

HDF5 is row based. You get MUCH efficiency by having tables that are not too wide but are fairly long.

因为我有一个非常宽的表，我假设 HDF5 不适合我的情况？

那么什么数据格式最适合这个目的？
压缩 (zip) 它也有意义吗？

我的文件示例:

id,col1,col2,col3,col4,col5,...
1,0,0,0,1,0,...
2,1,0,0,0,1,...
3,0,1,0,0,1,...
4,...

最佳答案

压缩对您没有帮助，因为您必须解压缩才能处理它。如果您可以发布生成文件的代码，那可能会有很大帮助。另外，你想在 R 中完成什么？在 Python 中可视化它会不会更快，避免 10.5GB 的读/写？

也许重新考虑您存储数据的方法(例如:如果数据很少，则存储 1 的坐标)可能是一个更好的角度。

例如，我可能只存储元组 (600492, 10786) 并在 R 中实现相同的可视化，而不是在第 600492 行第 10786 列中存储除 1 以外的所有零的 700K x 15K 表。

关于python - R中大文件的数据格式是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34887545/

26

4

0

sql - Postgres 中大 INSERT 后查询缓慢
我们在 RedHat 中使用 Postgres 9.2。我们有一个类似于以下的表: CREATE TABLE BULK_WI ( BULK_ID INTEGER NOT NULL, U
c - printf() 中大 float 的奇怪行为并分配给一个 int
根据我的计算，将浮点值转换为计算机存储的二进制值(符号、指数、尾数格式)，在 32 位中，1 位用于符号，8 位用于指数。所以只剩下 23 位来表示数字。所以我认为具有正确行为的浮点值范围仅为 0
mysql - 使用 InnoDB 引擎比较 MySQL 中大 'text' 类型值的最有效方法
我有一个像这样的临时表: CREATE TABLE `staging` ( `created_here_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTA
html - 列表元素符号在 Mozilla 和 IE 中的间距比在 Chrome 中大
下面是我的 HTML: Fact Sheet Facilities and Administrative (F&A) Cost Agreem
java - 为什么 .add(i, E) 在 Java ArrayList 中大 O(n)？
我想知道为什么 .add(i, E) 是 O(n) 而 .get(i) 是 O(1)？是不是因为 n 元素在插入后必须向右移动？最佳答案记住大 O 表示法显示问题的数量级而不是最佳情况解决方案..
c++ - 对于相同的 c++ 源文件，其 gcc 可执行文件在 Windows 中比在 Linux 中大 655 倍。为什么差别这么大？
我在装有 GCC 4.8.2 的 Windows 8.1、Intel i7-3517U 64 位笔记本电脑上测试这个简单的 C++ 代码。 #include using namespace std;