gpt4 book ai didi

R 写入 stdout 非常慢。有什么改善方法吗?

转载 作者:行者123 更新时间:2023-12-04 10:52:44 24 4
gpt4 key购买 nike

我正在编写一个简单的命令行 Rscript,它读取一些二进制数据并将其作为数字字符流输出。数据具有特定格式,R 有一个非常快速的库来处理相关的二进制文件。文件(700 万个字符)被快速读取 - 不到一秒:

library(affyio)
system.time(CEL <- read.celfile("testCEL.CEL"))

user system elapsed
0.462 0.035 0.498

我想将一部分读取数据写入标准输出:

str(CEL$INTENSITY$MEAN)
num [1:6553600] 6955 225 7173 182 148 ...

如您所见,它是具有约 650 万个整数的数字数据。

而且写入速度非常慢:

system.time(write(CEL$INTENSITY$MEAN, file="TEST.out"))
user system elapsed
8.953 10.739 19.694

(这里是写入一个文件,但是从 Rscript 写入标准输出需要相同的时间"

cat(vector) 根本没有提高速度。我发现的一项改进是:

system.time(writeLines(as.character(CEL$INTENSITY$MEAN), "TEST.out"))
user system elapsed
6.282 0.016 6.298

它与读取数据时获得的速度(它读取的数据是该特定向量的 5 倍)仍然相去甚远。此外,在我继续之前,我有将整个向量转换为字符的开销。另外,当下沉到标准输出时,如果我不小心未能将其重定向到文件,我将无法使用 CTRL+C 终止流。

所以我的问题是 - 是否有更快的方法将数字向量从 R 输出到标准输出?

另外,为什么读取数据比写入数据快得多?这不仅适用于二进制文件,而且通常适用于:

system.time(tmp <- scan("TEST.out"))
Read 6553600 items
user system elapsed
1.216 0.028 1.245

最佳答案

二进制读取速度很快。打印到 stdout 很慢有两个原因:

  • 格式化
  • 实际打印

您也可以进行基准测试/配置文件。但是,如果您真的想“快”,请远离用于打印大量数据的格式化。

编译后的代码有助于加快转换速度。但同样,最快的解决方案将是

  • 保留二进制
  • 不写入标准输出或文件(但使用例如 Redis 之类的东西)。

关于R 写入 stdout 非常慢。有什么改善方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27882876/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com