r - 如何在大型数据集的简单 'for'循环中使用ff包-6ren

r - 如何在大型数据集的简单 'for'循环中使用ff包

转载作者：行者123 更新时间：2023-12-04 03:52:55

25

4

我正在尝试对一张大表(约9400万行，3列)进行一些基本计算，这些表需要使用R中的ff等程序包。但是，我在使用此程序包时遇到了麻烦，内存不足，尽管我知道我的计算机有能力胜任这一工作。我在下面包括了我的硬件/软件规范，以及似乎没有正确使用ff软件包的代码。我已经花了100多个小时阅读每个ff软件包中提及任何内容的pdf，ppt和网站，而且我还没有发现任何可以清楚地说明如何使用ff的内容(至少对于像我这样的业余爱好者而言)。任何对我做错事的帮助将不胜感激。当我计算大约110万行时，此逻辑似乎有效，但此后似乎超出了范围。

我还尝试将“for”循环分解为总大小的1/200；在循环的每一遍中为现有的ShortPrice和LongPrice ff文件创建新的ff对象，然后在每一遍的末尾添加rm()和gc()。在开始时通过read.table.ffdf为每列创建ff文件时，由于某种原因，当尝试使用vmode =“quad”，“integer”为现有TradePosition ff文件创建新的ff对象时，我失去了TradePosition值”或“原始”。

硬件/软件规范:

2012年6月配备16 GB RAM，i7四核处理器，512 GB SSD的Macbook Pro

OS X 10.8.2

使用32位R程序

数据/表:

名为“Trades.txt”的文本文件有94,741,221行，三列

名为TradePosition的列1(“factor”类型，级别/值=“0”，“Short”或“Long”)

第2列名为ShortPrice(“ double ”类型，值表示EUR/USD货币价格到小数点后5位)

第3列，名为LongPrice(“double”类型，值表示EUR/USD货币价格到小数点后5位)

内部R变量“DatasetLength” = 94,741,221

代码:

library(ff)
options("fftempdir"="/Users/neil/Code/","ffbatchbytes"=20*getOption("ffbatchbytes"),"ffmaxbytes"=8*getOption("ffmaxbytes"),"ffpagesize"=1000*65536,"ffcaching"="mmnoflush")
ffdfTrades <- read.table.ffdf(file="/Users/neil/Code/Trades.txt",nrows=DatasetLength,FUN="read.table",header=TRUE,sep=";",quote="",colClasses=c("factor","numeric","numeric"),comment.char="")

Transactions <- c(rep(0,DatasetLength))
dataindex <- 1
for (dataindex in seq(1,DatasetLength-1,1)) {

    if (ffdfTrades$TradePosition[dataindex]!=ffdfTrades$TradePosition[dataindex+1]) {

        if (ffdfTrades$TradePosition[dataindex+1]=="Short") {

            if (ffdfTrades$TradePosition[dataindex]=="Long") {
                Transactions[dataindex+1] <- -2*ffdfTrades$ShortPrice[dataindex+1]
            }

            else {
                Transactions[dataindex+1] <- -1*ffdfTrades$ShortPrice[dataindex+1]
            }
        }

        else {

            if (ffdfTrades$TradePosition[dataindex+1]=="Long") {

                if (ffdfTrades$TradePosition[dataindex]=="Short") {
                    Transactions[dataindex+1] <- 2*ffdfTrades$LongPrice[dataindex+1]
                }

                else {
                    Transactions[dataindex+1] <- 1*ffdfTrades$LongPrice[dataindex+1]
                }
            }
        }
    }

    message(paste("Row ",dataindex," done.",sep=""))
    dataindex <- dataindex + 1
}

最佳答案

首先说明:如果您具有16Gb RAM，则运行32位版本的R是很可惜的，为什么不充分使用64位版本的R？

对于您的问题:您没有像Henrico所指出的那样适本地使用ff或R。循环遍历R中的每一行只是做事的方式，不在ff中，不在基R中。您需要向量化代码。我建议您遵循R类(class)，该类(class)与处理大数据无关，但与R数据处理的基本概念有关。

除此之外，这是您在ffbase中使用ffbase软件包中的一些其他实用程序所要查找的内容。标记为我没有看您对使用Long/Long和乘法的确切说明，但是可以根据需要更改ffifelse，就像在R的基本程序包中使用普通ifelse一样。
尝试ff祝您好运。

size <- 1000000
trades <- data.frame(TradePosition = factor(sample(c("0","Short","Long"), size, replace=TRUE)), ShortPrice = rnorm(size), LongPrice = rnorm(size))
write.table(trades, file = "Trades.txt", sep=";", row.names=FALSE)

require(ff)
require(ffbase)
trades <- read.table.ffdf(file="Trades.txt", sep=";", header=TRUE, colClasses=c("factor","numeric","numeric"))
idx <- cumsum(ff(1, length=nrow(trades)))
idx <- ffwhich(idx, idx < nrow(trades))
trades$previousposition <- c(ff(factor(NA)), trades$TradePosition[idx])
yourmultiplier <- 2
yourothermultiplier <- -1
trades$transactions <- ffifelse(trades$TradePosition == "Long", 
                            ffifelse(trades$previousposition == "Short", yourmultiplier*trades$ShortPrice, trades$ShortPrice),
                            ffifelse(trades$previousposition == "Long", yourothermultiplier*trades$LongPrice, trades$LongPrice))

关于r - 如何在大型数据集的简单 'for'循环中使用ff包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14074473/

25

4

0

文章推荐： msbuild - 使用XmlUpdate设置程序集的版本信息

文章推荐： gcc - GCC 选项中前缀 "g"、 "W"、 "f"、 "m"的全名和含义

文章推荐： python - 使用 pandas 中的 ffill 在以下 NaN 之间分配值

文章推荐： Ember.js:观察所有对象属性

java - java将String(FF FF FF FF FF FF FF FF FF)转换为int数组
我正在解析一个 XML 文件，其中包含一些条目，如下所示: FF FF FF FF FF FF FF FF 我将它们保存到 HashMap现在我想转换 String我进入int[] . 但我不知道该怎
c++ - memcpy 将 ff ff ff 添加到一个字节的开头
我有一个这样的数组: unsigned char array[] = {'\xc0', '\x3f', '\x0e', '\x54', '\xe5', '\x20'}; unsigned char a
java - FF a b FF 的正则表达式是什么？
输入的正则表达式应该是什么: FF a b FF 其中a和b可以是下面给出的任意组合- FF 1 2 FF FF A C FF FF F D3 FF FF EF 1C FF 我尝试使用 /(FF [a
git - 如何实现不允许的 `git --no-ff --ff-only`
作为我们的 rebase-heavy 工作流程的一部分，我希望在 master 分支上使用 merge 。特别是，我只想在主题分支重新基于最近的主提交时才 merge ，从而使任何 merge 成为快
regex - Qt 正则表达式 (? : [Ff]eat[. ]? )|(? : [[Ff]eaturing][. ]?)
在 Qt 项目中，我必须通过以下分隔符拆分 QString 壮举。壮举。专长壮举特色特色。特色特色我最好的尝试是 (?: [Ff]eat[.]? )|(?: [[Ff]eaturing
iPhone JPG 图像有非标准魔术字节 ff d8 ff e1？
我的网络应用程序在接受上传的图像之前会根据文件扩展名检查前四个字节。一位同事向我展示了他 iPhone 上的图像，但这些图像被拒绝了。它们具有不同的第四个字节(e1 = 225，而不是预期的 e0 =
javascript - FF Mac 和 FF Windows 中的不同换行行为
为什么我在 Firefox Mac 和 Firefox Windows 中有不同的换行行为。如何确保我在两个平台上有相同的换行符？使用小数位对我来说很重要。你可以看到我的示例代码和我的截图on J
css - Linux FF 和 Windows FF 中的字体不一样
请检查此屏幕截图! alt text http://img267.imageshack.us/img267/1391/difference.png 这是在 Linux FF(左侧)和 Windows
git - 我可以让 git merge --ff 表现得像 --ff-only 吗？
我有时想做一个--ff-only merge ，制表符完成有点尴尬，因为--ff存在。但是--ff是默认行为，我无法想象想要明确指定它。我可以制作 --ff --ff-only 的同义词？我知道我可以
jquery - FF 和 Chrome 的不同观点——找不到原因(也许是 FF bug？)
我编写了一个 jQuery 脚本来检查浏览器高度并与内容面板的高度进行比较。如果面板大于窗口高度，则脚本会使所有内容变小。它在 Chrome 和 Safari 中运行良好。在 Firefox 上它根
html - 在 FF 7 中查看为 FF 3.6 - 可能吗？
在 IE 中，您可以像以前的渲染引擎一样查看页面。您使用 9 并查看为 8、7、6。如果这在 Firefox 中可行？我正在使用 FF7，我想看看网站在 3.6 中的显示方式。这是可能的还是我需要
git - 如何配置 "git pull --ff-only"和 "git merge --no-ff"
对我来说，一个典型的 git 工作流程是克隆一个远程存储库并使用 git pull 来保持它是最新的。我不想在 pull 时 merge 提交，所以我使用 --ff-only 选项。我还为特色工作创
search - emacs ff-find-other-file 和 ff-search-directories 不是递归的
我们可以让 ff-find-other-file 在 ff-search-directories 列出的目录中递归搜索吗？它不仅会在/usr/include 中搜索，还会在/usr/include/
java - 在某些具有 Java Scripting API 的计算机上，"FF FF"被转储为 "FD"
我遇到了 Java Scripting API together with JavaScript 的问题在某些电脑上。分析转储文件后，我注意到“FF FF”在某些 PC 上被打印为“FD”。下面是代码
css - 如何在 FF 34.x 中获得 FF 33.x Flexbox 行为？
这个问题已经有答案了: Why don't flex items shrink past content size? (7 个回答) 已关闭 2 年前。我们在桌面应用程序(例如 Web 应用程序)中
Java:Printf(%.2f,arg) 显示 f$ff 而不是 f.ff。什么可能导致这种情况？
public class Ex51 { public static void main(String args[]) { Scanner input = new Scanner
css - 如何在 FF 34.x 中获得 FF 33.x Flexbox 行为？
这个问题在这里已经有了答案: Why don't flex items shrink past content size? (5 个答案) 关闭 2 年前。
git - 配置 `git pull` 使用 --ff 和 `git merge` 使用 --no-ff
我希望 git merge 默认为 --no-ff 并且 git pull 使用 --ff 当它 merge 获取的分支时。有没有办法配置 git 自动执行此操作？最佳答案我建议设置 merge
linux - 如何使用 VNC(docker standalone ff 和常规 ff)之类的东西访问 linux 上的浏览器 GUI)
假设我有一堆在 Linux 和 Firefox 上运行的 Selenium 测试。现在，我遇到了一些问题，我想查看 FF GUI 来调查这个问题。是否可以连接到服务器，即使用 VNC 查看器查看我的测
jquery - 覆盖 FF、chrome 等中的 F1 键。 ie8/chrome 上的 F1 是按键上的还是 FF 上的？输入字段中的怎么样？
我正在使用 jquery 创建命名空间事件。当我使用以下带有 code=112 的函数(函数 bool=false)时，FF 中一切正常，并且 F1 键提交到我的函数，并且该事件不会冒泡以在新选项卡中

首页

博学

6Ren·AI

商城

r - 如何在大型数据集的简单 'for'循环中使用ff包