r - 提升 ggplot2 性能-6ren

r - 提升 ggplot2 性能

转载作者：行者123 更新时间：2023-12-03 11:29:50

29

4

ggplot2 package 很容易成为我用过的最好的绘图系统，除了对于较大的数据集(约 50k 点)性能不是很好。我正在研究通过 Shiny 提供网络分析，使用 ggplot2作为绘图后端，但我对性能并不满意，尤其是与基本图形相比。我的问题是是否有任何具体的方法来提高这种性能。

起点是以下代码示例:

library(ggplot2)

n = 86400 # a day in seconds
dat = data.frame(id = 1:n, val = sort(runif(n)))

dev.new()

gg_base = ggplot(dat, aes(x = id, y = val))
gg_point = gg_base + geom_point()
gg_line = gg_base + geom_line()
gg_both = gg_base + geom_point() + geom_line()

benchplot(gg_point)
benchplot(gg_line)
benchplot(gg_both)
system.time(plot(dat))
system.time(plot(dat, type = 'l'))

我在我的 MacPro 视网膜上得到以下时间:

> benchplot(gg_point)
       step user.self sys.self elapsed
1 construct     0.000    0.000   0.000
2     build     0.321    0.078   0.398
3    render     0.271    0.088   0.359
4      draw     2.013    0.018   2.218
5     TOTAL     2.605    0.184   2.975
> benchplot(gg_line)
       step user.self sys.self elapsed
1 construct     0.000    0.000   0.000
2     build     0.330    0.073   0.403
3    render     0.622    0.095   0.717
4      draw     2.078    0.009   2.266
5     TOTAL     3.030    0.177   3.386
> benchplot(gg_both)
       step user.self sys.self elapsed
1 construct     0.000    0.000   0.000
2     build     0.602    0.155   0.757
3    render     0.866    0.186   1.051
4      draw     4.020    0.030   4.238
5     TOTAL     5.488    0.371   6.046
> system.time(plot(dat))
   user  system elapsed 
  1.133   0.004   1.138 
# Note that the timing below depended heavily on wether or net the graphics device
# was in view or not. Not in view made performance much, much better.
> system.time(plot(dat, type = 'l'))
   user  system elapsed 
  1.230   0.003   1.233

有关我的设置的更多信息:

> sessionInfo()
R version 2.15.3 (2013-03-01)
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)

locale:
[1] C/UTF-8/C/C/C/C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] ggplot2_0.9.3.1

loaded via a namespace (and not attached):
 [1] MASS_7.3-23        RColorBrewer_1.0-5 colorspace_1.2-1   dichromat_2.0-0   
 [5] digest_0.6.3       grid_2.15.3        gtable_0.1.2       labeling_0.1      
 [9] munsell_0.4        plyr_1.8           proto_0.3-10       reshape2_1.2.2    
[13] scales_0.2.3       stringr_0.6.2

最佳答案

哈德利有一个很酷的talk关于他的新包裹dplyr和 ggvis在用户 2013。但他自己可能会更好地讲述这一点。

我不确定您的应用程序设计是什么样的，但我经常在将数据提供给 R 之前进行数据库内预处理。例如，如果您正在绘制时间序列，则实际上不需要显示每一秒X 轴上的日期。相反，您可能想要聚合并获得最小值/最大值/平均值，例如一到五分钟的时间间隔。

下面是我多年前编写的一个函数示例，它在 SQL 中做了类似的事情。此特定示例使用模运算符，因为时间存储为纪元毫秒。但是如果 SQL 中的数据被正确地存储为日期/日期时间结构，SQL 有一些更优雅的本地方法来按时间段聚合。

#' @param table name of the table
#' @param start start time/date
#' @param end end time/date
#' @param aggregate one of "days", "hours", "mins" or "weeks"
#' @param group grouping variable
#' @param column name of the target column (y axis)
#' @export
minmaxdata <- function(table, start, end, aggregate=c("days", "hours", "mins", "weeks"), group=1, column){

  #dates
  start <- round(unclass(as.POSIXct(start))*1000);
  end <- round(unclass(as.POSIXct(end))*1000);

  #must aggregate
  aggregate <- match.arg(aggregate);

  #calcluate modulus
  mod <- switch(aggregate,
    "mins"   = 1000*60,
    "hours"  = 1000*60*60,
    "days"   = 1000*60*60*24,
    "weeks"  = 1000*60*60*24*7,
    stop("invalid aggregate value")
  );

  #we need to add the time differene between gmt and pst to make modulo work
  delta <- 1000 * 60 * 60 * (24 - unclass(as.POSIXct(format(Sys.time(), tz="GMT")) - Sys.time()));  

  #form query
  query <- paste("SELECT", group, "AS grouping, AVG(", column, ") AS yavg, MAX(", column, ") AS ymax, MIN(", column, ") AS ymin, ((CMilliseconds_g +", delta, ") DIV", mod, ") AS timediv FROM", table, "WHERE CMilliseconds_g BETWEEN", start, "AND", end, "GROUP BY", group, ", timediv;")
  mydata <- getquery(query);

  #data
  mydata$time <- structure(mod*mydata[["timediv"]]/1000 - delta/1000, class=c("POSIXct", "POSIXt"));
  mydata$grouping <- as.factor(mydata$grouping)

  #round timestamps
  if(aggregate %in% c("mins", "hours")){
    mydata$time <- round(mydata$time, aggregate)
  } else {
    mydata$time <- as.Date(mydata$time);
  }

  #return
  return(mydata)
}

关于r - 提升 ggplot2 性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18352426/

29

4

0

文章推荐： jms - HornetQ vs ActiveMQ vs Qpid 的优势

文章推荐： r - YouTube 评论抓取工具返回有限的结果

JavaScript 提升
在本教程中，您将通过示例学习 JavaScript。 JavaScript 中的提升是一种在声明之前可以使用函数或变量的行为。例如， // using test before declarin
JavaScript 提升
我正在学习javascript提升功能，发现下面的代码真的很困惑: var a = 1; function b() { a = 10; return; function a()
Javascript 提升
作为一个JS学习者，我发现了一件很有趣的事情，考虑下面的代码。 this.init = function (e) { var container = e.container;
Scala Quasiquote 提升
Quasiquotes 的 Scala 文档在解释 Lifting 时提到了这一点: One can also combine lifting and unquote splicing: scala
提升 session 管理
我是新来的。到目前为止，我一直在使用 MVC 模型并使用基本的 session 管理模型，即在 session 中存储一个 token 并检查每个请求。我正在尝试对lift做同样的事情，但我的 se
elasticsearch - 根据字段值添加查询时间权重/提升
我当前使用的是Elasticsearch 2.4版，希望根据查询时间的增加或加权，根据我称为“类型”的字段对结果集进行微调。例如如果字段“类型”的值为“船”，则将权重或增强值增加4 如果字段“类型
haskell - 提升、返回和变压器类型构造函数
一年多以来，我一直在大量使用 lift、return 以及 EitherT、ReaderT< 等构造函数，等等。我读过《Real World Haskell》、《Learn You a Haskell
scala - 提升 `??` 结构
我浏览了电梯的MegaProtoUser遇到这种结构:??("Last Name")。谁能解释一下，这是什么意思？谢谢解答最佳答案它是在对象 S 上定义的: def ??(str : Strin
多值日期字段的 Solr 提升
我有一个Solr索引，每个文档都是一个Event的信息。在我的架构中，Schedule 是日期类型的多值字段。我想知道是否可以使用计划日期来增加文档(多值字段中的任何日期)在未来并且最接近当前日期？我
scala - 提升:如何使用设计人员友好的模板构建表单？
作为测试，我正在尝试使用设计人员友好的模板在 lift 中创建一个表单。我正在使用 Lift 2.5 我已经设法使用 toForm 创建了一个工作表单，但我只是在探索所有可能的方法。我的 html
c++ - 重置条件变量(提升)
如果这个问题已经被问到，我深表歉意。是否可以清除已经设置的条件变量？下面是我想要实现的详细信息: void worker_thread { while (wait_for_conditio
Javascript 提升 - 无法理解这一点
尝试学习Js，无法理解为什么DOM元素没有获取到值: var Car = function(loc) { var obj = Object.create(Car.prototype); obj
全局变量和函数的 JavaScript 提升
我想知道吊装。我知道如果全局函数名称与全局变量相同，函数会覆盖变量的名称。是吗？这是我的代码。 (function() { console.log('console.log#1 ' + glob
Javascript 提升、函数声明
这个问题已经有答案了: var functionName = function() {} vs function functionName() {} (41 个回答) 已关闭 7 年前。在javas
C++ winapi 提升
我正在开发 Windows 资源管理器 namespace 扩展。我的应用程序是explorer.exe在某个时候加载和使用的动态库。我需要我的 DLL 在 C:\中创建文件，有时在其他需要提升才能执
git - 提升 PR 前的内部审查
背景: GitHub 属于客户。我们团队中有一些新手，他们有时会错过基本的命名约定和其他编码协议(protocol)。所以，如果哪位前辈想在内部review，除了创建PR，别无他法。但是这个 PR 对
Delphi:需要时提示 UAC 提升
我们需要在运行时更改 HKEY_LOCAL_MACHINE 的一些设置。如果需要在运行时，是否可以提示 uac 提升，或者我是否必须启动第二个提升的进程来完成“肮脏的工作”？最佳答案我会以提升的
haskell - 提升(在函数式编程上下文中)与类别理论有何关系？
看着Haskell文档，提升似乎基本上是 fmap 的概括，允许映射具有多个参数的函数。 Wikipedia然而，关于提升的文章给出了不同的观点，根据类别中的态射来定义“提升”，以及它如何与类别中的其
r - 提升 ggplot2 性能
ggplot2 package 很容易成为我用过的最好的绘图系统，除了对于较大的数据集(约 50k 点)性能不是很好。我正在研究通过 Shiny 提供网络分析，使用 ggplot2作为绘图后端，但我对
powershell - 提升 Powershell 脚本
是否可以提升 powershell 脚本的权限，以便没有管理员权限的用户可以运行该脚本？我们的网络管理员正在尝试寻找更省时的方法来完成某些任务，目前他们必须使用远程桌面...使用 PS 脚本将其自动化

首页

博学

6Ren·AI

商城

r - 提升 ggplot2 性能