r - 为什么 ff 仍然将数据存储在 RAM 中？-6ren

r - 为什么 ff 仍然将数据存储在 RAM 中？

转载作者：行者123 更新时间：2023-12-04 19:26:05

26

4

使用 ff package of R ，我将一个 csv 文件导入到一个 ffdf 对象中，但惊讶地发现该对象占用了大约 700MB 的 RAM。 ff 不应该将数据保存在磁盘而不是 RAM 中吗？我做错什么了吗？我是 R 的新手。感谢任何建议。谢谢。

> training.ffdf <- read.csv.ffdf(file="c:/temp/training.csv", header=T)
> # [Edit: the csv file is conceptually a large data frame consisting
> # of heterogeneous types of data --- some integers and some character
> # strings.]
>
> # The ffdf object occupies 718MB!!!
> object.size(training.ffdf)
753193048 bytes
Warning messages:
1: In structure(.Internal(object.size(x)), class = "object_size") :
  Reached total allocation of 1535Mb: see help(memory.size)
2: In structure(.Internal(object.size(x)), class = "object_size") :
  Reached total allocation of 1535Mb: see help(memory.size)
>
> # Shouldn't biglm be able to process data in small chunks?!
> fit <- biglm(y ~ as.factor(x), data=training.ffdf)
Error: cannot allocate vector of size 18.5 Mb

编辑:我听从了 Tommy 的建议，省略了 object.size 调用并查看了任务管理器(我在具有 4GB RAM 的 Windows XP 机器上运行 R)。我 ffsave 对象，关闭 R，重新打开它，并从文件加载数据。问题占了上风:

> library(ff); library(biglm)
> # At this point RGui.exe had used up 26176 KB of memory
> ffload(file="c:/temp/trainingffimg")
> # Now 701160 KB
> fit <- biglm(y ~ as.factor(x), data=training.ffdf)
Error: cannot allocate vector of size 18.5 Mb

我也试过

> options("ffmaxbytes" = 402653184) # default = 804782080 B ~ 767.5 MB

但是加载数据后，RGui还是用了700多MB内存，biglm回归还是报错。

最佳答案

您需要将数据分块提供给 biglm，请参阅 ?biglm。
如果传递 ffdf 对象而不是 data.frame，则会遇到以下两个问题之一:

ffdf 不是 data.frame，所以会发生一些未定义的事情

您传递给的函数尝试通过例如将 ffdf 转换为 data.frame as.data.frame(ffdf)，它很容易耗尽您的 RAM，这可能就是您遇到的情况

检查 ?chunk.ffdf 以获取如何将块从 ffdf 传递到 biglm 的示例。

关于r - 为什么 ff 仍然将数据存储在 RAM 中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8900898/

26

4

0

文章推荐： shell - 格式化 du 命令输出

文章推荐： ruby-on-rails - Rails 5.2.3 上的危险查询方法弃用警告

文章推荐： maven - Windows 10 WSL - Maven 配置

ram - 计算机如何直接访问 RAM 中的内存位置？
如果我们想访问数组的元素 i，我们会这样做:i *(每个元素的大小)+ 数组的起始地址 = 我们需要访问的元素的内存位置。然后 CPU 直接访问 RAM 中的该位置。这是怎么发生的？假设我要定位的内
python 没有足够的 RAM 使用磁盘空间而不是 RAM
考虑以下 python 代码 with open(sys.argv[2], 'r') as fin, \ open(sys.argv[3], 'w') as fout:
Java 进程使用的 RAM 多于分配的 RAM？
基本上我在 Centos 6.2 16GB 系统上运行我的世界服务器我通过 rtoolkit 引导来启动我的服务器，现在我分配它使用 12GB，但它使用的 muc 比这多，我不知道为什么。我运行此命
c - 内存映射显示的 RAM 多于物理可用的 RAM
我正在开发一个小型 x86 内核。我正在访问并尝试读取 GRUB 在多重引导 header 中提供的内存映射。我有一个 Intel i3 cpu 和 4 GiB 的 RAM。在这台机器上运行时，我正在
ram - 限制 CPP 应用程序的 RAM 使用
我有 3 GB 内存。有没有办法只为 C++ 应用程序分配 512MB 的 RAM？否则有没有办法暂时将我的 RAM 减少到 512MB 以进行测试？谢谢，阿肖克最佳答案使用SetProce
c - DMA 传输 RAM 到 RAM
我的一个 friend 告诉我，在 x86 架构上，DMA Controller 无法在两个不同的 RAM 位置之间传输。它只能在RAM和外设(如PCI总线)之间传输。这是真的吗？因为 AFAIK
c - 分配 ram 显示任务管理器中 ram 使用量的两倍
做一些分析(内存和速度) 我一直被 win7 似乎分配的 RAM 正好是我要求的两倍这一事实所困扰...注意这是我第一次在 win7 上进行这样的主动分析，所以我真的不知道会发生什么。我在 win7
java - 如何复制正在运行的应用程序的 RAM，保存它，然后将其重新加载到 RAM 中？
我经常玩 retrofit 版的 Minecraft。这样做的一个缺点是，每当我启动 Minecraft 时，编译所有模组都需要花费大量时间。这可能需要大约 15 分钟左右的时间，在我看来，这太长了。
linux - 如何通过 DMA 将数据从 RAM 传输到 RAM？
我想编写一个内核模块，可以通过 DMA 将数据从 RAM 传输到 RAM。有一些帖子讨论这个，但我真的不明白。有人说可能，也有人说不可能。如果我对 ldd3 的理解是正确的，RAM 到 RAM 的复
powershell - 单值 Total Ram/Free Ram 可用内存/总内存
我正在寻找一种方法来查找总内存和正在使用的内存的单个熟值输出。 gwmi Win32_OperatingSystem | select TotalVisibleMemorySize, FreePhys
postgresql - 用于缓存的 Heroku Postgres RAM 与 Memcache RAM
我在 Heroku 上有一个网络应用程序，我试图了解添加具有 1GB RAM 的 Memcached 实例与向我的 Postgres 服务器添加 1GB RAM 之间的区别/权衡。如果我添加一个 M
python - 我需要通过将 Python 字典存储在硬盘驱动器而不是 RAM 中来释放 RAM。是否可以？
在我的例子中，我有一个包含大约 6000 个实例化类的字典，其中每个类都有 1000 个属性变量，所有类型都是字符串或字符串列表。当我建立这本字典时，我的 RAM 变得非常高。有没有一种方法可以在将字
c++ - 如果你已经消耗了所有的视频 ram，SDL Texture 会自动使用普通 Ram 吗？
我的问题是:如果您用完了所有可用的视频内存，并尝试创建新纹理 (SDL)，是否会自动使用普通内存而不是视频内存？或者，您是否必须尝试使用使用普通 ram 的表面 (SDL)？如果您出于任何原因无法
c - 当 ram 地址存储为 u32 时从 ram 内存中获取值
我在从 ram 地址获取值时遇到问题。我有一些限制，即它必须是 C 代码，并且存储信息的地址由 u32 值给出，例如 0x001c0080。环境是ARM的，我用的是eclipse sdk。我怎样才
linux - 如果 2GB RAM 可以使用虚拟内存完成工作，则需要 8GB RAM
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
c - 区域 ram 溢出，section .text 不适合区域 ram
我正在尝试使用 GCC 编译器(标准 C)编译裸机应用程序。我使用 Cyclone V SoC 和 Cortex-A9 处理器。 eclipse DS-5。我收到这些错误 - “Region ram
python - 如果 RAM 不是问题，是逐行读取更快还是将所有内容读入 RAM 并访问它？ - Python
如果 RAM 不是问题(我的服务器上有接近 200GB)，是逐行读取更快还是将所有内容读入 RAM 并访问它？每行将是大约 200-500 个 unicode 字符的字符串。每个文件有近 200 万行
大 RAM 机器上的 pandas 内存错误但小 RAM 机器上没有 : same code, 相同的数据
我在我的两台机器上运行以下命令: import os, sqlite3 import pandas as pd from feat_transform import filter_anevexp db
c++ - 将数组从 RAM 复制到 GPU 以及从 GPU 复制到 RAM
我正在尝试在我的一个项目中引入一些 CUDA 优化。但我认为我在这里做错了什么。我想实现一个简单的矩阵 vector 乘法 (result = matrix * vector)。但是当我想将结果复制回
c++ - 为什么我的程序设计为耗尽 RAM 和 CPU 而没有使用所有 RAM 和 CPU？
#include #include #include #include #include #include using namespace std; char randomLetter()

首页

博学

6Ren·AI

商城

r - 为什么 ff 仍然将数据存储在 RAM 中？