r - 为什么在 R 的这个例子中 data.table 这么慢-6ren

r - 为什么在 R 的这个例子中 data.table 这么慢

转载作者：行者123 更新时间：2023-12-03 22:52:18

25

4

这与 R- view all the columns names with any NA 有关

我比较了 data.frame 和 data.table 版本，发现 data.table 慢了 10 倍。这与大多数带有 data.table 的代码相反，后者确实比 data.frame 版本快得多。

set.seed(49)
df1 <- as.data.frame(matrix(sample(c(NA,1:200), 1e4*5000, replace=TRUE), ncol=5000))

library(microbenchmark) 
f1 <- function() {names(df1)[sapply(df1, function(x) any(is.na(x)))]}
f2 <- function() { setDT(df1); names(df1)[df1[,sapply(.SD, function(x) any(is.na(x))),]]  } 
microbenchmark(f1(), f2(), unit="relative")
Unit: relative
 expr      min       lq   median       uq      max neval
 f1()  1.00000  1.00000 1.000000 1.000000 1.000000   100
 f2() 10.56342 10.20919 9.996129 9.967001 7.199539   100

预先设置DT:

set.seed(49)
df1 <- as.data.frame(matrix(sample(c(NA,1:200), 1e4*5000, replace=TRUE), ncol=5000))
setDT(df1)

library(microbenchmark) 
f1 <- function() {names(df1)[sapply(df1, function(x) any(is.na(x)))]}
f2 <- function() {names(df1)[df1[,sapply(.SD, function(x) any(is.na(x))),]]  } 
microbenchmark(f1(), f2(), unit="relative")
Unit: relative
 expr      min       lq   median       uq      max neval
 f1()  1.00000  1.00000  1.00000  1.00000 1.000000   100
 f2() 10.64642 10.77769 10.79191 10.77536 7.716308   100

可能是什么原因？

最佳答案

data.table 在这种情况下不会提供任何神奇的加速。

# Unit: relative
#  expr      min       lq   median       uq      max neval
#  f1() 1.000000 1.000000 1.000000 1.000000 1.000000    10
#  f2() 8.350364 8.146091 6.966839 5.766292 4.595742    10

为了比较，在我的机器上，时间在上面。

在“data.frame”方法中，您实际上只是使用 data.frame 是一个列表并遍历该列表这一事实。

在 data.table 方法中，您正在做同样的事情，但是通过使用 .SD，您将强制复制整个 data.table(使可用的数据)。这是 data.table 巧妙地将您需要的数据复制到 j 表达式的结果。通过使用 .SD，您将复制所有内容。

提高性能的最佳方法是使用 anyNA 这是一种更快的(原始)方法来查找任何 NA 值(一旦找到第一个值就会停止，而不是创建整个is.na 向量，然后扫描任何 TRUE 值)

对于更定制的测试，您可能需要编写(Rcpp 糖样式)函数

您还会发现 unlist(lapply(...)) 通常会比 sapply 更快。

f3 <- function() names(df1)[unlist(lapply(df1, anyNA))]
f4 <- function() names(df1)[sapply(df1, anyNA)]
microbenchmark(f1(), f2(),f3() ,f4(),unit="relative",times=10)

# Unit: relative
# expr       min        lq    median        uq        max neval
# f1() 10.988322 11.200684 11.048738 10.697663  13.110318    10
# f2() 92.915256 92.000781 91.000729 88.421331 103.627198    10
# f3()  1.000000  1.000000  1.000000  1.000000   1.000000    10
# f4()  1.591301  1.663222  1.650136  1.652701   2.133943    10

在 Martin Morgan 的建议下

f3.1 <- function() names(df1)[unlist(lapply(df1, anyNA),use.names=FALSE)]

 microbenchmark(f1(), f2(),f3() ,f3.1(),f4(),unit="relative",times=10)
# Unit: relative
#    expr        min         lq    median         uq        max neval
#    f1()  18.125295  17.902925  18.17514  18.410682  9.2177043    10
#    f2() 147.914282 145.805223 145.05835 143.630573 81.9495460    10
#    f3()   1.608688   1.623366   1.66078   1.648530  0.8257108    10
#  f3.1()   1.000000   1.000000   1.00000   1.000000  1.0000000    10
#    f4()   2.555962   2.553768   2.60892   2.646575  1.3510561    10

关于r - 为什么在 R 的这个例子中 data.table 这么慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26091445/

25

4

0

文章推荐： .net - 使用 NSIS 检查 .NET4.5+

文章推荐： powershell - SendMessage 导致脚本挂起

文章推荐： r - R中数据之间的链接

文章推荐： r - 将变量名称传递给绘图函数标题

crypt_r() 例子？
谁能给我一个关于如何使用函数 crypt_r() 的例子吗？在手册页中，不清楚返回的 char * 字符串是指向函数本身内部(在堆中)分配的内存块，还是仍然指向静态内存，如 crypt()？最佳答
security - Spectre 例子
在 Spectre 中paper ，有一个利用越界数组访问的示例(第 1.2 节)。代码是 if (x < array1_size) y = array2[ array1[x] * 256 ];
语法:自上而下和自下而上的区别？ (例子)
这是 Grammar: difference between a top down and bottom up? 的后续问题我从这个问题中了解到: 语法本身不是自上而下或自下而上的，而是解析器有些
java - java中在构造函数中声明变量合法吗？例子
在java的构造函数中声明变量合法吗？示例。 Time(){ long timeMill = System.currentTimeMillis(); int secon
jquery - 光滑的网格 - 例子？
我一直在仔细研究 slick grid 的示例，并且想要 ping SO 社区并查询 Excel 电子表格编辑演示的示例？就存储而言，网格仅存储整数数据，并且网格将托管在 mvc3 razor 页面内
html - 如何在响应式网站中将菜单居中？ (例子)
我很难将愚蠢的菜单置于我网站页面的中心。我知道我可以将外部 div 的宽度设置为 px 值，但我怎样才能让它以响应式网站为中心？这是页面: http://103.4.17.225/~america/i
html - 为什么在打开网页时调整大小的桌面浏览器和移动设备在大小方面不一样？例子
我正在寻找可在 wordpress 上使用的主题。有时，页面会在调整大小的网络浏览器上正确加载，但在移动设备上却不能，即使尺寸相同，它也会加载某种错误(通常是错位)。例如，在此页面中 ( http:/
谁能帮助我理解这个特殊的 union 例子？
union { unsigned char raw[8]; struct { uint8_t gz_method; uint8_t flag;
OpenCV::matchShapes() 例子？
我想使用 matchShapes() 函数在查询图像中查找对象。假设我有一本书的模型图像，我想提取它的形状，然后尝试在另一幅图像中找到这本书(它的形状)。我在谷歌上搜索了很多，但找不到任何关于如何
ruby-inotify 例子？
我正在寻找一个使用 inotify 的简单、简洁的示例gem 来检测目录的更改。它缺少示例。最佳答案 examples/watcher.rb 中有一个示例.该链接指向 aredridel 的 re
algorithm - 这是考虑编程中递归性的正确方法吗？ (例子)
我一直在努力学习编程中的递归是什么，我需要有人来确认我是否已经完全理解它是什么。我尝试考虑的方式是通过对象之间的碰撞检测。假设我们有一个函数。当确定发生碰撞时调用该函数，并使用对象列表调用它以确定
java - jBullet 例子
我正在尝试学习如何在我正在处理的项目中使用 jBullet，我已经查看了源提供的演示，但我只是无法弄清楚这些演示如何显示对象。谁有好的资源可以指点我或提供一个在屏幕上显示一个或两个对象的基本示例？在
java - JGraphT 例子
我想在一个简单的 x,y 图表上绘制线条，以使用 JGraphT 在 JApplet 中显示。我找到的例子不是很有帮助。有人可以给我指出一些简单的 JGraphT 示例吗？最佳答案这里有一个例子，
algorithm - 什么是滑动窗口算法？例子？
在解决几何问题时，我遇到了一种称为滑动窗口算法的方法。真的找不到任何关于它的学习 Material /细节。算法是关于什么的？最佳答案我认为它更像是一种技术而不是一种算法。这是一种可用于各种算
java - 同步方法可以有竞争条件吗？ [例子]
我正在学习同步方法，以防止 Java 中的竞争条件和不良行为。我看到了以下示例，并被告知竞争条件非常微妙: public class Messages { private String messa
hadoop - 如何解析多个pdf转换成hadoop(例子)
我有 100 万个 pdf，如何使用 hadoop 转换为文本并将其用于分析。目标是利用 hadoop 的强大功能将 pdf 数据提取为文本。最佳答案我已经在 Hadoop 上处理了一个 pdf
database - 规范化过多与过少，例子？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - 为什么不能从析构函数中抛出。例子
我读到过，由于堆栈展开，从析构函数中抛出不是一个好主意。我不确定我是否完全理解。所以我尝试了下面的例子 struct foo { ~foo() { throw 1;
url-rewriting - encodeURL() 例子？
任何人都可以告诉我一个简单的(代码)示例来展示 response.encodeURL() 的用法吗？我所有的搜索(包括 google 和 stackoverflow)只提供了 encodeURL()
facebook - haskell facebook 例子
我受困于 haskell 类型。 {-# LANGUAGE OverloadedStrings #-} module Main ( main ) where import qualified

首页

博学

6Ren·AI

商城

r - 为什么在 R 的这个例子中 data.table 这么慢