- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我用 Python 生成了一个非常大的数据文件,其中大部分由 0
(false) 和少数 1
(true) 组成。它有大约 700.000 列和 15.000 行,因此大小为 10.5GB。第一行是标题。
然后需要在 R 中读取和可视化此文件。
我正在寻找正确的数据格式以从 Python 导出我的文件。
如前所述here :
HDF5 is row based. You get MUCH efficiency by having tables that are not too wide but are fairly long.
因为我有一个非常宽的表,我假设 HDF5 不适合我的情况?
那么什么数据格式最适合这个目的?
压缩 (zip) 它也有意义吗?
我的文件示例:
id,col1,col2,col3,col4,col5,...
1,0,0,0,1,0,...
2,1,0,0,0,1,...
3,0,1,0,0,1,...
4,...
最佳答案
压缩对您没有帮助,因为您必须解压缩才能处理它。如果您可以发布生成文件的代码,那可能会有很大帮助。另外,你想在 R 中完成什么?在 Python 中可视化它会不会更快,避免 10.5GB 的读/写?
也许重新考虑您存储数据的方法(例如:如果数据很少,则存储 1 的坐标)可能是一个更好的角度。
例如,我可能只存储元组 (600492, 10786) 并在 R 中实现相同的可视化,而不是在第 600492 行第 10786 列中存储除 1 以外的所有零的 700K x 15K 表。
关于python - R中大文件的数据格式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34887545/
我们在 RedHat 中使用 Postgres 9.2。我们有一个类似于以下的表: CREATE TABLE BULK_WI ( BULK_ID INTEGER NOT NULL, U
根据我的计算,将浮点值转换为计算机存储的二进制值(符号、指数、尾数格式),在 32 位中,1 位用于符号,8 位用于指数。 所以只剩下 23 位来表示数字。 所以我认为具有正确行为的浮点值范围仅为 0
我有一个像这样的临时表: CREATE TABLE `staging` ( `created_here_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTA
下面是我的 HTML: Fact Sheet Facilities and Administrative (F&A) Cost Agreem
我想知道为什么 .add(i, E) 是 O(n) 而 .get(i) 是 O(1)?是不是因为 n 元素在插入后必须向右移动? 最佳答案 记住大 O 表示法显示问题的数量级而不是最佳情况解决方案..
我在装有 GCC 4.8.2 的 Windows 8.1、Intel i7-3517U 64 位笔记本电脑上测试这个简单的 C++ 代码。 #include using namespace std;
我是一名优秀的程序员,十分优秀!