r - 如何从大型数据集中优化子集？-6ren

r - 如何从大型数据集中优化子集？

转载作者：行者123 更新时间：2023-12-04 11:51:34

25

4

我有这个金融交易数据集，它相当大但小到可以保存在内存中。

R> str(trans)
'data.frame':   130000000 obs. of  5 variables:
 $ id    : int  5 5 5 5 6 11 11 11 11 11 ...
 $ kod   : int  2 3 2 3 38 2 3 6 7 6 ...
 $ ar    : int  329 329 330 330 7 329 329 329 329 329 ...
 $ belopp: num  1531 -229.3 324 -48.9 0 ...
 $ datum : int  36976 36976 37287 37287 37961 36976 36976 37236 37236 37281 ...

我需要遍历它来提取每个唯一 id 的交易，并进行大量计算。问题是数据集的子集太慢了..

R> system.time(
+ sub <- trans[trans$id==15,]
+ )
   user  system elapsed 
   7.80    0.55    8.36


R> system.time(
+ sub <- subset(trans, id == 15)
+ )
   user  system elapsed 
   8.49    1.05    9.53

由于这个数据集中有大约 10m 的唯一 ID，这样的循环将永远持续下去，我有什么想法可以加快速度吗？

编辑
我涉足过“data.tables”、索引和排序，但运气不佳。

library(data.table)
trans2 <- as.data.table(trans)
trans2 <- trans2[order(id)]
trans2 <- setkey(trans2, id)

R> system.time(
+ sub <- trans2[trans2$id==15,]
+ )
   user  system elapsed 
   7.33    1.08    8.41 

R> system.time(
+ sub <- subset(trans2, id == 15)
+ )
   user  system elapsed 
   8.66    1.12    9.78

编辑2 惊人的。

R> system.time(
+ sub <- trans2[J(15)]
+ )
   user  system elapsed 
      0       0       0

最佳答案

Note:该帖子已通过更改从 rowSums 计算的函数进行了编辑至 colSums (在 data.table 的情况下使用 lapply)

我认为您无法比 data.table 更快地获得结果.这是 plyr 之间的基准和 data.table .当然，如果耗时的部分是你的函数，那么你可以使用 doMC使用 plyr 并行运行(假设你有很多核心或者你在一个集群上工作)。否则，我会坚持 data.table .这是具有大量测试数据和虚拟函数的分析:

# create a huge data.frame with repeating id values
len <- 1e5
reps <- sample(1:20, len, replace = TRUE)
x <- data.frame(id = rep(1:len, reps))
x <- transform(x, v1 = rnorm(nrow(x)), v2 = rnorm(nrow(x)))

> nrow(x) 
[1] 1048534 # 1 million rows

# construct functions for data.table and plyr
# method 1
# using data.table
DATA.TABLE <- function() {
    require(data.table)
    x.dt <- data.table(x, key="id")
    x.dt.out <- x.dt[, lapply(.SD, sum), by=id]
}

# method 2
# using plyr
PLYR <- function() {
    require(plyr)
    x.plyr.out <- ddply(x, .(id), colSums)
}

# let's benchmark
> require(rbenchmark)
> benchmark(DATA.TABLE(), PLYR(), order = "elapsed", replications = 1)[1:5]
          test replications elapsed relative user.self
1 DATA.TABLE()           1  1.006     1.00    .992
2       PLYR()           1  67.755   67.351  67.688

在具有 100 万行的 data.frame 上， data.table需要 0.992 seconds .使用 data.table 的加速与 plyr 相比(诚然，在计算列总和时)是 68x .根据函数中的计算时间，这种加速会有所不同。但是 data.table仍然会更快。 plyr是一种拆分-应用-组合策略。我认为与使用 base 来拆分、应用和组合自己相比，您不会获得可比的加速。当然你可以试试。

我运行了 1000 万行的代码。 data.table运行时间为 5.893 秒。 plyr耗时 6300 秒。

关于r - 如何从大型数据集中优化子集？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14139586/

25

4

0

文章推荐： vba - 如何将VBA转换为Google Apps脚本？

文章推荐： amazon-web-services - 创建没有资源的 CloudFormation 堆栈

algorithm - 集中/分布式共享
我想做一个系统，用户可以上传和下载文件。系统将具有一个集中的地形，但在很大程度上依赖于节点将相关数据通过中心节点传输给其他节点我不希望对等端保存整个文件，而是希望它们保存整个数据集的一个压缩的加密部分
整个应用程序的 Flutter 集中/通用加载屏幕
我正在 Riverpod Auth 流程样板应用程序中工作。我想对所有异步功能甚至登录和注销使用通用加载屏幕。目前，如果 Appstate 加载我显示加载屏幕，我有 AppState 提供程序。它可
php - 集中 php 全局变量？
我有一个 functions.php 文件，其中包括以下功能: function head() { global $brand, $brandName, $logo, $slogan, $si
jquery - 将一个类添加到无限循环的随机 div 集中
我有下一个 html 代码 ... 我想选择随机的 div 数组来向它们添加一个事件类，因为我使用这个 jquery 代码 function randOrder() { return
.net - 集中/控制.NET项目和解决方案的任意生成
多年来，我创建并调整了一组NAnt脚本以执行完整的项目构建。主脚本采用一个应用程序端点（例如，一个Web应用程序项目），并从源代码控制中对其进行完整的构建。脚本已预先配置了与构建输出位置，源代码控制地
jquery - 我如何判断窗口是否在 jQuery 集中？
我希望我的 jQuery 插件在 $(window) 选择上调用时表现不同。如何检查 window 是否在集合中？到目前为止我的尝试: >>> $(window) == $(window) false
javascript - 将元素添加到现有的 jQuery 集中
考虑到我们有 let existingSet = $(); 如何通过 jQuery 将 newElements 添加到该集合中？ existingSet = existingSet.add(newEl
c++ - 插入 STL 集中
我需要在 priority_queue 中保存一个整数集合。但是我需要能够删除这些整数中的一个，即使它不是我容器的第一个元素。我无法使用 std::priority_queue。我选择使用一个集合来根
css - 集中 div 和缩放以适合屏幕
对于我的网站，我一直在尝试集中所有内容以便在移动设备上显示: http://m.bachatdeals.com 我在移动设备上打开网站后，内容下方有很多空间，我必须捏住 zoon 才能阅读，如何删除下
javascript - 集中 Kendo 验证器自定义规则
我计划为我的剑道验证器制定一些自定义规则，并希望在所有验证器之间共享。在我的验证器代码中，我有: rules: { bothorblank: function (input) {
代码有助于确定点是否在 Mandelbrot 集中(检查我的解决方案)
这是我的函数，用于测试两个点 x 和 y 在 MAX_ITERATION 255 之后是否在 mandelbrot 集合中。如果不在，它应该返回 0，如果在，则返回 1。 int isMandelbr
html - 集中 float div
致力于从移动设备扩展到桌面设备的简单网站布局。一切都按预期工作，但由于某种原因，我的 float div 没有集中放置。我已经完成了正常工作，但这次不适合我？有什么想法吗？这是我的 CSS: /*
css - 集中 float 元素
我的“div”元素有一个相对宽度，它不是绝对的，所以我不能使用精确的数字来集中。一个不错的解决方案是使用“display: inline-block”: body { text-align:
c# - 集中 MEF 组合
目前我拥有的所有类都处理它们自己的导入。使用一个典型的例子: [ImportMany] private Lazy[] someOfMyInterfaces { get; set; } public M
python - 为什么不应该将重复对象添加到我的 Python 集中？
我有一个类定义: class Question: title = "" answer = "" def __init__(self, title, answer):
c++ - 如何将用户定义的对象插入 STL 集中？
我正在尝试将一个对象 Point2D 插入到一个 Point2D 集合中，但我做不到，似乎该集合适用于 int 和 char 但不适用于对象。我需要帮助来了解如何将对象插入到集合中？？？假设我想按
android - 显示一个 PopupWindow 集中
我的应用上有一些弹出窗口，它是全屏的，代码如下: content.setLayoutParams(new LayoutParams(LayoutParams.WRAP_CONTENT,
jakarta-ee - 集中 quarkus 的通用配置
我们有一个多模块 Quarkus 项目，带有一个公共(public)库和多个应用程序。在通用的 lib 中，我们有各种缓存用于所有应用。我们希望不必在每个应用程序的所有配置文件中配置保留和容量。有
r - ggplot - 集中 facet_grid 标题并且只出现一次
这个问题在这里已经有了答案: Nested facets in ggplot2 spanning groups (2 个回答) 去年关闭。我在 ggplot 中创建了一个图表里面有两个变量 face
javascript - 集中 radio 组 Vuetify
我无法集中v-radio-group。这是我得到的:

首页

博学

6Ren·AI

商城

r - 如何从大型数据集中优化子集？